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“如 果 你 想 学 习 如 何 用 一 款 统 计 专 家 和 数据 挖掘 专家 所 开发 的 免费 软件 包 ， 那 就 选 这 
本 书 吧 。 本 书包 括 大 量 实际 案例， 它们 充分 体现 了 R 软 件 的 广度 和 深度 


一 一 Bernhard Pfahringer, 新 西 兰 怀 卡 托 大 学 


本 书 利用 大 量 给 出 必要 步骤 、 代 码 和 数据 的 具体 案例 ， 详 细 描述 了 数据 挖掘 的 主要 过 程 和 技 
术 ， 广 泛 涵盖 数据 大 小 、 数 据 类 型 、 分 析 目 标 、 分 析 工 具 等 方面 的 各 种 具有 挑战 性 的 问题 。 

本 书 的 支持 网 站 ( http://www.liaad.up.pt/~ltorgo/DataMiningWithR/ ) 给 出 了 案例 研究 的 所 有 代 
码 、 数 据 集 以 及 R 函 数 包 。 


本 书 特色 
bud EY 
o 给 出 的 代码 和 方法 可 以 方便 地 复制 或 者 改编 后 应 用 于 自己 的 问题 。 
e 不 要 求 读 者 具有 R、 数 据 挖掘 或 统计 技术 的 基础 知识 。 
e 包含 R 和 MySQL 基 础 知识 的 简介 
e 提供 了 对 数据 挖掘 技术 的 特性 、 缺点 和 分 析 目 标的 基本 理解。 


作者 简介 
Luis Torgo 葡萄 牙 波 尔 图 大 学 计算 机 科学 系 副教授 ， 现 在 在 LIAAD 实 验 室 从 事 研 
究 工作 。 他 是 APPIA 会 员 ， 同 时 还 是 OBEGEF 的 创办 会 员 。 
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本 书 首先 简要 介绍 了 R 软件 的 基础 知识 (安装 、R 数据 结构 、R 编程 、R 的 输入 和 输出 等 ) 。 然 后 通 
过 四 个 数据 挖掘 的 实际 案例 〈 营 类 频率 的 预测 、 证 券 趋 势 预测 和 交易 系统 仿真 、 交 易 欺诈 预测 、 微 阵列 数 
据 分 类 ) 介绍 数据 挖掘 技术 。 这 四 个 案例 基本 覆盖 了 常见 的 数据 挖掘 技术 ， 从 无 监督 的 数据 挖 据 技 术 、 有 
监督 的 数据 挖 据 技术 到 半 监 督 的 数据 挖 据 技术。 全 书 以 实际 问题 、 解 决 方案 和 对 解决 方案 的 讨论 为 主线 来 
组 织 内 容 ， 脉 络 清晰 ， 并 且 各 章 自 成 体系 。 读 者 可 以 从 头 至 尾 逐 章 学 习 ， 也 可 以 根据 自己 的 需要 进行 学 
习 ， 找 到 自己 实际 问题 的 解决 方案 。 

本 书 不 需要 读者 具备 R 和 数据 挖掘 的 基础 知识 。 不 管 是 RR 初学 者 ， 还 是 熟练 的 R 用 户 都 能 从 书 中 找到 
对 自己 有 用 的 内 容 。 读 者 既 可 以 把 本 书 作为 学 习 如 何 应 用 R 的 一 本 优秀 教材 ， 也 可 以 作为 数据 挖掘 的 工 
A. 

Data Mining with R; Learning with Case Studies by Luis Torgo (ISBN 978 -1-4398-1018-7). 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 
取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风 骚 。 
在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 身 
处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 
既 遵 循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 迫 切 。 
这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 
在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 和 发 展 
的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 
发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 工作 重点 
放 在 了 簿 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw-Hill Elsevier, 
MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教 
材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Dennis Ritchie, Jim Gray, 
Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. 
Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 
称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 昂 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 中 肯 的 选 
题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 
的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书 籍 在 读 
者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原版 书库 ”作为 
姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 有 了 
质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 
计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达 
到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联 
系 方法 如 下 : 


华章 网 站 ，www. hzbook. com 
电子 邮件 hzjsj@hzbook. com = 
联系 电话 : (010) 88379604 i 


联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 
邮政 编码 ，100037 华章 科技 图 书 出 版 中 心 
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数据 挖掘 正在 改变 着 企业 和 其 他 大 型 组 织 与 客户 的 互动 方式 ， 同 时 也 改变 着 它们 管理 复杂 过 程 的 
方式 。 大 量 的 数据 正在 很 好 地 用 于 预测 客户 行为 和 结果 。 在 软件 方面 ，R 以 其 强大 的 功能 和 诱 人 的 价 
格 (免费 ) 正在 改变 着 定量 分 析 的 “生态 系统 ”。 

本 书 的 目的 是 引领 读者 迅速 地 进 人 这 两 个 世界 。 本 书 以 实际 案例 的 方式 介绍 数据 挖掘 和 R 软件 ， 
这 样 读者 就 可 以 在 真实 情境 中 进行 学 习 ， 而 不 会 迷失 在 统计 理论 的 细节 讨论 或 者 计算 机 科学 的 基础 概 
念 中 。 本 书 中 用 到 的 工具 全 部 是 免费 的 : MySQL 数据 库 ( 用 于 数据 库 操作 ) 和 R 软件 (用 于 分 析 )。 
因此 ， 本 书 教 给 你 的 是 如 何 动手 的 知识 。 通 过 学 习 本 书 ， 你 将 体验 到 数据 挖掘 和 R 的 强大 功能 。 如 果 
你 能 安装 这 些 工 具 ， 并 通过 应 用 这 些 工 具 来 详细 地 学 习 书 中 的 案例 研究 ， 你 将 收获 颇 丰 。 本 书 逐 步 地 
通过 案例 研究 来 介绍 R 的 概念 ， 如 果 你 还 不 熟悉 R 或 者 MySQL， 你 可 以 按 章节 顺序 来 学 习 这 些 案例 。 

本 书 的 原作 者 Luts Torgo， 根 据 他 在 葡萄 牙 波 尔 图 大 学 丰富 的 教学 经 验 、 在 其 他 国家 讲授 数据 挖掘 
课程 的 经 验 ， 以 及 聚集 了 世界 各 地 专业 人 士 的 Statistics. com 在 线 课程 中 的 教学 经 验 ， 精 心地 写作 了 
本 书 。 
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目前 ， 数 据 挖掘 和 R 是 学 术 界 及 工业 界 中 的 两 个 关键 技术 。 丰 富 的 传感器 机 制 使 得 自动 收集 数据 
成 为 可 能 后 ， 产 生 了 非常 大 的 数据 集 ， 这 需要 自动 化 的 机 制 来 将 这 些 数据 转化 为 有 用 的 信息 ， 以 供 决 
策 者 使 用 和 参考 。R 是 一 个 开发 这 些 自动 化 机 制 的 很 好 选择 。R 提供 的 大 量 算法 和 方法 ， 以 及 它 的 自 
由 和 开放 源码 特性 ， 使 得 R 成 为 数据 挖掘 的 最 佳 选择 之 一 。 本 书 的 目的 是 向 读者 介绍 数据 挖掘 和 R 的 
知识 。 本 书 的 写作 思路 是 给 读者 介绍 一 系列 有 代表 性 的 研究 案例 ， 通 过 这 些 案例 ， 读 者 不 仅 从 中 学 到 
主流 的 数据 挖掘 方法 ， 同 时 也 可 以 学 习 本 书 所 提供 的 R 代码 ， 并 最 终 把 这 些 代码 应 用 到 他 们 自己 的 数 
据 挖掘 项 目 中 。 

随 着 中 文 版 的 出 版 ， 我 希望 我 能 说 服 更 多 的 人 认识 R 和 数据 挖掘 的 优势 。 得 知 我 的 书 得 到 世界 各 
地 读者 的 关注 ， 对 我 而 言 是 一 项 伟大 的 荣誉 。 我 相信 本 书 中文 版 的 发 行将 有 助 于 中 国 的 R 社区。 对 所 
有 的 中 国 读者 ， 我 真诚 地 希望 ， 在 读 完 本 书后 ， 你 们 发 现 它 不 仅 有 助 于 你 们 的 工作 ， 同 时 你 们 将 和 我 
自己 一 样 增加 了 对 数据 挖掘 和 R 的 热情 。 


Lufs Torgo 
2012 年 12 月 16 日 于 葡萄 牙 ， 波 尔 多 
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ABE 2011 FRR SABRAA (Chapman & Hall/CRC) 出 版 的 《Data Mining with R; Learning 
with Case Studies) 一 书 的 中 文 版 。 英 文 版 从 出 版 后 就 在 亚马逊 美国 网 站 上 得 到 了 极 高 的 评价 ， 是 2011 
年 亚马逊 网 站 上 数据 挖掘 类 书籍 销量 最 好 的 一 本 。 机 械 工 业 出 版 社 以 极 快 的 速度 引进 这 本 书 的 中 文 版 ， 
使 国内 读者 在 原版 出 版 一 年 左右 的 时 间 里 读 到 本 书 ， 不 得 不 赞扬 他 们 独到 的 眼光 。 本 书 翻 译 完稿 的 时 
候 (2012 年 10 月 ) ， 其 英文 版 的 销量 还 是 排 在 专业 书籍 的 前 列 ， 原 作者 为 本 书 维护 了 一 个 网 站 ， 读 者 
可 以 访问 该 网 站 查看 这 些 信 息 。 

本 书 的 作者 Luts Torgo 是 一 位 数据 挖 据 专 家 ， 同 时 也 是 一 位 R 开发 者 。 本 书 给 出 了 四 个 数据 挖掘 的 
实际 案例 ， 它 们 分 别 是 菠 类 频率 的 预测 、 证 券 趋 势 预测 和 交易 系统 仿真 、 交 易 欺诈 预测 ， 以 及 微 阵 列 
数据 分 类 。 这 四 个 案例 基本 覆盖 了 常见 的 数据 挖掘 技术 ， 从 无 监督 的 数据 挖掘 技术 、 有 监督 的 数据 控 
掘 技术 到 半 监 督 的 数据 挖掘 技术 。 同 时 这 四 个 案例 从 数据 量 、 分 析 目 标 和 数据 类 型 方面 引出 了 各 种 各 
样 的 挑战 性 问题 ， 本 书 给 出 了 克服 这 些 挑 战 的 方法 和 技巧 。 阅 读本 书 不 需要 具备 R 和 数据 挖掘 的 基础 
知识 。 为 了 便于 读者 阅读 ， 本 书 第 1 章 给 出 了 R 软件 的 基础 知识 (安装 、R 数据 结构 、R 编程 、R 的 
输入 和 输出 等 )。 全 书 以 实际 问题 、 解 决 方案 和 对 解决 方案 的 讨论 为 主线 来 组 织 内 容 。 读 者 既 可 以 把 
本 书 作为 学 习 如 何 应 用 R 的 一 本 优秀 教材 ， 也 可 以 作为 数据 挖掘 的 工具 书 。 读 者 可 以 根据 自己 的 需要 
参考 书 中 的 某 些 具体 方法 ， 找 到 自己 实际 问题 的 解决 方案 。 

R 本 身 是 一 款 十 分 优秀 的 统计 分 析 和 数据 挖掘 软件 ， 有 关 R 的 书籍 和 文档 也 是 相当 多 的 。 但 是 系 
统 地 讲解 用 R 进行 数据 挖掘 的 书籍 目前 还 没有 。 本 书 以 四 个 案例 研究 的 形式 组 织 内 容 ， 脉 络 清晰 ， 并 
且 各 章 自 成 体系 。 读 者 可 以 从 头 逐 章 学 习 ， 也 可 以 根据 自己 的 需要 进行 学 习 。 不 管 是 R 初学 者 ， 还 是 
熟练 的 R 用 户 都 能 从 书 中 找到 对 自己 有 用 的 内 容 。 

本 人 在 2011 年 年 初学 习作 者 Lufs Torgo 在 Statistics. com 上 的 在 线 课 程 ， 深 感 本 书 的 内 容 极 具 实用 
价值 ， 萌 生 了 把 本 书 翻译 为 中 文 的 念头 。2011 年 年 末 ， 恰 逢 机 械 工业 出 版 社 华 章 公司 引进 了 本 书 的 版 
权 ， 在 王 春 华 编辑 的 支持 下 ， 我 承担 了 本 书 的 翻译 工作 。 由 于 英文 的 习惯 和 汉语 有 较 大 的 不 同 ， 对 于 
一 些 特别 长 的 句 式 ， 译 者 按照 原文 的 意思 进行 了 分 解 处 理 。 关 于 书 中 的 术语 ， 译 者 尽量 采用 中 文 已 有 
的 对 应 术语 ， 如 果 中 文 没 有 对 应 术语 ， 译 者 尽力 采用 贴切 的 名 称 来 反映 原文 中 的 术语 。 

本 书 的 翻译 工作 由 李 洪 成 、 陈 道 轮 和 吴立明 共同 完成 。 另 外 ， 许 金 玮 、 朱 振兴 、 陈 冰 、 汤 静 文 、 
BKE. 、 张 潇 予 等 也 对 本 书 的 部 分 翻译 提供 了 帮助 。 在 本 书 的 翻译 过 程 中 ， 原 作者 Torgo 博士 多 次 就 
译 者 提出 的 问题 进行 耐心 而 细致 的 解答 。 这 里 对 他 的 帮助 表示 由 衷 的 谢意 。 另 外 ， 感 谢 美 国 统计 教育 
学 院 Peter Bruce 为 本 书 中 文 版 写 的 推荐 序 。 由 于 水 平 所 限 ， 书 中 可 能 会 有 翻译 不 当 之 处 ， 希 望 读 者 多 
加 指正 。 
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本 书 的 主要 目的 是 向 读者 介绍 如 何 用 R 进行 数据 挖掘 。R 是 一 个 可 以 自由 下 载 ? 的 语言 ， 它 提供 
统计 计算 和 绘图 环境 ， 其 功能 和 大 量 的 添加 包 使 它 成 为 一 款 优秀 的 、 多 个 已 有 (昂贵 ) 数据 挖掘 工具 
的 替代 软件 。 

数据 挖掘 的 一 个 关键 问题 是 数据 量 。 典 型 的 数据 挖掘 问题 包括 一 个 大 的 数据 库 ， 需 要 从 中 提取 有 
用 的 信息 。 在 本 书 中 ， 我 们 用 MySQL 作为 核心 数据 库 管 理 系统 。 对 多 个 计算 机 平台 ，MySQL 也 是 免费 
的 ” 。 这 意味 着 ， 我 们 可 以 不 用 付 任何 费用 就 可 以 进行 “重要 的 ”数据 挖掘 任务 。 同 时 ， 我 们 希望 说 
明 解 决 方案 质量 上 并 没有 任何 损失 。 昂 贵 的 工具 并 不 意味 着 一 定 更 好 ! 只 要 你 愿意 花 时 间 来 学 习 如 何 
应 用 它们 ，R 和 MySQL 就 是 一 对 很 难 超越 的 工具 。 我 们 认为 这 是 值得 的 ， 希 望 在 读 完 本 书 之 后 ， 你 也 
相信 这 点 。 

本 书 的 目的 不 是 介绍 数据 挖掘 的 各 个 方面 。 许 多 已 有 的 书籍 覆盖 了 数据 挖掘 领域 。 我 们 用 几 个 
案例 来 向 读者 介绍 R 的 数据 挖掘 能 力 。 显 然 ， 这 几 个 案例 不 能 代表 我 们 在 现实 世界 中 碰 到 的 所 有 数 
据 挖 掘 问题 。 同 时 ， 我 们 给 出 的 解决 方案 也 不 是 最 完全 的 方案 。 我 们 的 目的 是 通过 这 些 实际 案例 向 
读者 介绍 如 何 用 R 进行 数据 挖掘 。 因 此 ， 我 们 案例 分 析 的 目的 是 展示 用 R 进行 信息 提取 的 例子 ， 而 
不 是 提供 数据 挖掘 案例 的 完整 分 析 报 告 。 它 们 可 以 作为 任何 数据 挖掘 项 目的 可 能 思路 ， 或 者 作为 开 
发 数据 挖掘 项 目 解决 方案 的 基础 。 尽 管 如 此 ， 我 们 尽力 尝试 覆盖 多 方面 的 问题 ， 展 示 数 据 大 小 、 不 
同 数据 类 型 、 分 析 目 标 和 进行 分 析 所 必需 的 工具 所 带 来 的 挑战 。 然 而 ， 这 里 的 实践 方式 也 是 有 代价 
的 。 实 际 上 ， 作 为 具体 案例 研究 的 一 种 形式 ， 为 了 让 读者 在 自己 的 计算 机 上 执行 我 们 所 描述 的 步 
县， 我 们 也 做 了 某 些 妥协 。 也 就 是 说 ， 我 们 不 能 处 理 太 大 的 问题 ， 这 些 问 题 要 求 的 计算 机 资源 不 是 
每 个 人 都 具备 的 。 尽 管 这 样 ， 我 们 认为 本 书 涵盖 的 问题 也 不 算 小 ， 并 对 不 同 的 数据 类 型 和 维度 给 出 
了 解决 方案 。 

这 里 并 不 要 求 读者 具有 R 的 先 验 知识 。 没 有 学 过 R 和 数据 挖掘 的 读者 应 该 可 以 学 习 书 中 的 案例 。 
书 中 的 各 个 案例 相互 独立 ， 读 者 可 以 从 书 中 任何 一 个 案例 开始 。 在 第 一 个 简单 案例 中 ， 给 出 了 一 些 基 
本 的 R 知识 。 这 意味 着 ， 如 果 你 没有 学 过 R， 至 少 应 该 从 第 一 个 案例 开始 学 习 。 而 且 ， 第 1 章 给 出 了 
R 和 MySQL 的 简介 ， 它 可 以 帮助 你 理解 后 面 的 章节 。 我 们 也 没有 假设 你 熟悉 数据 挖掘 和 统计 技术 。 在 
每 个 案例 的 必要 地 方 ， 都 对 不 同 的 数据 挖 扎 技术 进行 了 介绍 。 本 书 的 目的 不 是 向 读者 介绍 这 些 技术 的 
理论 细节 和 全 面 知识 ， 我 们 对 这 些 工具 的 描述 包括 了 它们 的 基本 性 质 、 缺 点 和 分 析 目 标 。 如 果 需 要 进 
一 步 了 解 技术 细节 ， 可 以 参考 其 他 书籍 。 在 某 些 节 的 末尾 ， 我 们 提供 了 “参考 资料 ”， 如 果 需 要 ， 可 
以 参考 它们 。 总 之 ， 本 书 的 读者 应 该 是 数据 分 析 工 具 的 用 户 ， 而 不 是 研究 人 员 或 者 开发 人 员 。 同 时 ， 
我 们 希望 后 者 把 本 书 作 为 进入 R 和 数据 挖掘 “世界 ”的 一 种 方式 ， 从 而 发 现 本 书 的 用 途 。 





© 下 载 网 址 ; http: //www. r-project. org, 
© 下 载 网 址 ; http: //www. mysql. com, 


本 书 有 一 个 免费 的 R 代码 集 ， 可 以 从 本 书 网 站 下 载 s 。 其 中 含有 案例 研究 中 的 所 有 代码 ， 这 可 以 
帮助 你 的 实践 学 习 。 我 们 强烈 建议 读者 在 阅读 本 书 时 安装 R 并 实验 书 中 的 代码 。 而 且 ， 我们 创建 了 一 
个 名 为 DMwR 的 R 添加 包 ， 它 包含 本 书 用 到 的 多 个 函数 和 以 R 格式 保存 的 案例 数据 集 。 你 应 该 按照 本 
书 的 指示 ， 安 装 并 加 载 该 添加 包 (第 1 章 给 出 了 细节 ) 。 


© Fa Rint: http; //www. liaad. up. pt/ ~ ltorgo/ DataMiningWithR/。 
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首先 要 感谢 我 的 家 人 给 我 的 所 有 支持 。 没 有 他 们 的 帮助 和 支持 ， 我 是 无 法 完成 本 书 的 。 他 们 的 支 
持 、 关 怀 和 爱 给 我 足够 的 安慰 ， 使 我 可 以 克服 写作 本 书 过 程 中 的 困难 。 同 样 ， 我 的 朋友 也 给 了 我 同样 
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简 T 


R 是 一 种 用 于 统计 计算 的 编程 语言 和 环境 ， 它 与 AT&T 贝尔 实验 室 的 Rick Becker, John 
Chambers 和 Allan Wilks 开发 的 S 语言 很 相似 。 随 着 操作 系统 的 不 同 ，R 语言 有 UNIX 版 本 、 
Windows 版 本 和 Mac 版 本 。R 可 以 在 不 同体 系 结构 的 计算 机 系统 上 运行 ， 例 如 Intel, PowerPC, 
Alpha 系统 以 及 Spare 系统 。R 最 早 由 新 西 兰 奥克兰 大 学 的 Ihaka 和 Gentleman 于 1996 年 开发 。 现 
E R 的 开发 由 一 个 几 十 人 组 成 的 核心 团队 来 负责 ,核心 团队 的 成 员 来 自 于 世界 各 地 的 不 同 顶 构 
和 单位 。 由 于 R 的 开源 性 ，R 软件 的 开发 采用 社区 合作 的 方式 。R 的 所 有 源 代码 都 可 以 免费 获取 
以 便 进 行 检验 或 者 利用 。 这 样 你 就 可 以 检查 和 测试 你 应 用 的 R 软件 的 可 靠 性 。 人 们 对 开源 软件 
模式 有 诸多 指责 ， 其 中 最 多 的 是 认为 开源 软件 缺少 支持 是 其 主要 缺陷 之 一 。 但 是 对 于 R 软件 ， 
该 缺陷 却 不 存在 ! 有 许多 很 好 的 文档 、 书 籍 和 网 站 提供 了 免费 的 R 资料。 另外 ，R 帮助 邮件 列表 
是 获取 免费 R 帮助 信息 和 建议 的 极 好 来 源 ， 它 甚至 比 付 费 的 帮助 更 好 ! R 有 一 个 可 搜索 的 邮件 
列表 文档 。 在 邮件 列表 中 提问 前 ， 可 以 先 查找 这 个 可 搜索 的 邮件 列表 文档 。 (也 应 该 这 样 做 !) 
可 以 在 R 网 站 的 “Mailing Lists” (邮件 列表 ) 部 分 得 到 有 关 R 邮件 列表 的 更 多 信息 。 

数据 挖 握 是 应 用 统计 学 、 机 器 学 习 和 模式 识别 等 学 科 的 知识 ， 从 数据 中 发 现 有 用 的 、 有 效 
的 、 未 知 的 并 且 可 以 理解 的 信息 的 一 项 技术 。 数 据 挖 掘 的 一 项 重要 特征 是 数据 的 维 育 。 随 着 计算 
机 技术 和 信息 系统 的 广泛 应 用 ， 需 要 探索 的 数据 呈 指 数 增长 。 这 给 传统 的 数据 分 析 学 科 带 来 了 
挑战 : 必须 考虑 计算 的 效率 、 内 存 资源 的 限制 、 数 据 库 接口 等 。 这 些 使 得 数据 挖掘 成 为 一 门 高 度 
交叉 的 学 科 ， 它 不 仅 有 传统 数据 分 析 的 任务 ， 也 有 数据 库 的 工作 ， 高 维 数据 可 视 化 等 。 

由 于 R 的 所 有 计算 是 在 计算 机 的 内 存 中 进行 的 ， 所 以 R 在 处 理 大 数据 集 上 有 限制 。 但 是 这 
并 不 意味 着 我 们 不 能 处 理 这 些 问题 ， 利 用 R 高 度 灵活 的 数据 库 接口 ， 我 们 可 以 对 大 型 问题 进行 
数据 挖掘 。 基 于 开源 软件 的 信念 ， 我 们 可 以 应 用 优秀 的 MySQL 数据 库 管 理 系统 S。MySQL 可 以 
应 用 在 大 多 数 的 计算 机 平台 和 操作 系统 上 。 而 且 ，R 的 添加 包 RMySQL (James and DebRoy, 
2009) 可 以 使 我 们 便捷 地 访问 MySQL 数据 库 。 

总 之 ， 我 们 希望 在 读 完 本 书 之 后 ， 你 能 够 相信 不 用 花 钱 就 可 以 进行 大 型 问题 的 数据 挖掘 。 这 
一 切 都 归功 于 开发 出 R 和 MySQL 这 样 优秀 软件 的 人 们 的 慷慨 贡献 。 


1.1 如 何 阅读 本 书 


本 书 基于 做 中 学 的 宗旨 ， 组 织 了 一 系列 的 案例 研究 。 这 些 案例 的 “解决 方案 ”通过 有 来 获 
取 。 本 书 描述 了 所 有 得 到 “解决 方案 ”的 必要 步骤 。 通 过 本 书 提供 的 网 站 ， 可 以 获取 本 书 有 关 
的 R 添加 包 (DMwR) ， 所 有 的 R 代码 和 案例 研究 数据 都 在 相关 的 文档 中 。 这 可 以 让 你 方便 地 自 
己 进行 实验 。 理 论 上 ， 你 应 该 在 计算 机 上 阅读 这 些 文档 并 尝试 这 些 文档 中 演示 给 你 的 每 一 个 步 
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又 。 在 本 书 中 ，R 代码 是 用 以 下 代码 体 来 表示 的 : 


> R.version 


platform i486-pc-linux-gnu 
arch i486 

os linux-gnu 
system 1486, linux-gnu 
status 

major 2 

minor 10.1 

year 2009 

month 12 

day 14 

svn rev 50720 

language R 


version.string R version 2.10.1 (2009-12-14) 


E R 的 命令 行 提示 符 “> ”之 后 输入 R 命令 。 当 看 到 这 个 提示 符 时 ， 你 可 以 理解 为 R 在 等 
待 输入 命令 。 在 命令 提示 符 后 输入 命令 ， 然 后 按 下 ENTER ( 回 车 ) 键 让 R 来 执行 它们 。 这 可 能 
会 产生 某 种 形式 的 输出 (BIR 命令 的 结果 ) ， 然 后 出 现 一 个 新 的 提示 符 。 在 提示 符 处 ， 你 可 以 使 
用 箭头 键 来 浏览 和 编辑 以 前 输入 过 的 命令 。 若 以 前 输入 了 类 似 的 命令 ， 通 过 编辑 以 前 的 命令 可 
以 方便 地 得 到 你 需要 的 命令 ， 这 就 避免 了 重复 输入 。 可 以 复制 、 粘 贴 本 书 网 站 提供 的 代码 到 R 
编译 器 或 者 R 控制 台 ， 这 样 就 可 以 避免 自己 输入 书 中 的 那些 代码 ， 这 绝对 会 使 你 的 学 习 更 加 便 
捷 ， 并 加 深 你 对 书 中 知识 的 理解 。 


1.2 Rat 


本 节 提 供 了 R 语言 中 关键 术语 的 简要 介绍 。 读 者 不 需要 熟悉 计算 机 编程 知识 就 可 以 容易 地 
掌握 本 节 中 介绍 的 例子 。 不 过 ， 如 果 你 觉得 没有 动力 来 学 习 这 部 分 R 简介 ， 可 以 先 跳 过 本 章 的 有 
简介 部 分 ， 直 接 进 行 案 例 研究 。 当 你 从 具体 应 用 中 得 到 更 多 的 学 习 R 语言 的 动机 后 ， 再 返回 本 
章 的 R 简介 部 分 。 i 

R 是 一 门 用 于 统计 计算 和 绘图 的 函数 语言 。 它 可 以 看 做 是 S 语言 的 一 种 方言 (由 AT&T 公司 
开发 ) 。S 语言 的 开发 者 John Chambers 因为 S 语言 而 于 1998 年 被 授予 计算 机 学 会 (Association of 
Computing Machinery, ACM) 软件 奖 ， 获 奖 时 提 到 $ 语言 “永远 改变 了 人 们 分 析 、 可 视 化 和 操作 
数据 的 方式 ”。 

仅仅 在 命令 行 交 互 方式 下 R 就 已 经 非常 有 用 了 。 也 可 以 有 更 高 级 的 应 用 R 软件 系统 的 方式 ， 
比如 用 户 可 以 开发 自己 的 函数 来 执行 系统 性 的 重复 任务 ， 甚 至 可 以 利用 R 的 开源 优点 来 增加 或 
者 修改 已 有 的 R 添加 包 中 的 功能 。 

12.1 R 起 步 

在 计算 机 中 安装 R 最 简单 的 方法 是 从 R 网 站 ?获取 一 个 二 进 制 发 行 版 。 从 R 网 站 的 链接 中 可 
以 找到 综合 RR 文档 网 站 (Comprehensive R Archive Network ，CRAN) ， 在 该 网 站 的 诸多 资源 中 ， 可 
以 找到 适合 你 操作 系统 /架构 的 二 进 制 发 行 版 。 如 果 喜 欢 直 接 从 R 源 代码 来 安装 R 软件 ， 可 以 从 

R 的 CRAN 网 站 得 到 从 源 代 码 安装 R 的 指导 文档 。 
下 载 适 合 你 操作 系统 的 二 进 制 发 行 版 后 ， 只 需要 按照 其 中 的 说 明 ， 一 步 一 步 进行 即 可 。 对 于 
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R AY Windows 版 本 ， 只 需 运行 下 载 文件 (R-2. 10. 1- win32. exe)8， 在 之 后 的 菜单 中 选择 所 需要 的 
选项 。 在 某 些 操作 系统 中 ， 由 于 缺乏 安装 软件 的 权限 ， 可 能 需要 联系 系统 管理 员 来 完成 安装 
任务 。 

在 Windows 操作 系统 中 ， 只 需要 双击 桌面 上 相应 的 图 标 就 可 以 运行 R; 而 在 UNIX 操作 系统 
中 ， 则 需要 在 操作 系统 提示 符 后 输入 字母 R。 它 们 最 终 将 启动 带 有 命令 行 提示 符 “> ”的 R 控 
制 台 。 | 

如 果 想 退出 R， 可 以 在 R 提示 符 下 输入 指令 q( )。R 将 询问 是 否 要 保存 当前 工作 空间 的 内 
容 。 如 果 想 在 以 后 恢复 当前 R 退出 时 的 分 析 内 容 ， 应 该 回答 “是 ”。 

BRR 安装 后 有 了 强大 的 功能 , 但 是 你 可 能 需要 安装 一 些 CRAN 上 其 他 的 R 添加 包 。 在 
Windows 版 本 中 ,很 容易 通过 “程序 包 ” 和 菜单 来 安装 R 添加 包 。 将 计算 机 连接 到 互联 网 后 ， 应 
该 在 菜单 中 选择 “安装 程序 包 ... ”这 个 选项 。 选 择 该 选项 后 ，R 首先 弹出 一 个 CRAN 的 镜像 窗 
口 ， 让 你 选择 合适 的 CRAN 镜像 网 站 。 选 择 了 CRAN 镜像 网 站 之 后 ， 它 会 给 出 另外 一 个 窗口 ， 列 
H CRAN 网 站 上 可 用 的 R 添加 包 列 表 。 在 列表 中 选择 你 需要 的 添加 包 后 ，R 将 下 载 该 添加 包 并 
自动 安装 在 R 软件 系统 中 。 在 UNIX 版 本 中 ， 添 加 包 的 安装 可 能 会 随 着 R 安装 过 程 中 图 形 功 能 的 
不 同 而 略 有 不 同 。 不 过 ， 即 使 不 是 使 用 菜单 来 安装 ， 通 过 命令 行 安装 添加 包 也 是 很 简单 的 9。 假 
设 需要 要 下 载 一 个 能 够 提供 连接 到 MySQL 数据 库 功 能 的 添加 包 ， 包 的 名 称 是 RMySQL S。 只 和 需要 
在 R 提示 符 处 输入 以 下 命令 : 

> install.packages('RMySQL') 


install. packages( ) 函数 有 许多 参数 ， 其 中 有 CRAN 镜像 库 参 数 repos， 通 过 该 参数 可 以 设 定 
离 你 最 近 的 CRAN 镜像 3。 尽 管 如 此 ， 当 第 一 次 在 R 会 话 中 运行 该 命令 时 ，R 会 提示 你 选择 需要 
使 用 的 CRAN 镜像 库 。 

你 应 该 做 的 事情 之 一 是 安装 本 书 提供 的 R 添加 包 ， 该 添加 包 提 供 了 本 书 用 到 的 数据 集 和 贯 
穿 全 书 的 多 个 函数 。 和 安装 其 他 R 添加 包 一 样 ， 安 装 本 书 提供 的 添加 包 的 代码 如 下 : 


> install.packages ('DMwR') 
如 果 你 想 知 道 目 前 在 计算 机 上 已 经 安装 的 R 添加 包 ， 可 执行 以 下 命令 : 


> installed. packages () 


这 将 产生 一 个 很 长 的 输出 ， 输 出 的 每 一 行 包含 一 个 包 名 、 版 本 信息 、 所 依赖 的 包 等 。 另 外 一 
种 获取 已 经 安装 的 R 添加 包 的 方式 是 用 以 下 命令 : 
> library() 


尽管 它 的 输出 信息 不 完整 ， 但 是 却 用 户 友好 的 。 另 外 一 个 非常 有 用 的 命令 是 检查 CRAN 上 是 
否 有 已 安装 的 R 添加 包 的 更 新 版 本 : 


> old.packages() 
此 外 ， 可 以 使 用 下 面 的 命令 来 更 新 所 有 已 安装 的 R 软件 包 : 


> update. packages () 


R 软件 有 一 个 集成 的 帮助 系统 ， 可 以 用 它 来 了 解 更 多 的 R 函数 和 R 软件 系统 。 此 外 ， 可 以 


实际 的 文件 名 随 着 R 版 本 的 不 同 而 不 同 ， 这 里 的 文件 名 是 R 2. 10. 1 的 文件 名 。 

注意 ， 这 里 的 R 命令 在 Windows 操作 系统 下 也 是 可 以 运行 的 ， 尽 管 应 用 菜单 更 实用 些 。 
可 以 从 R 的 CRAN 网 站 的 常见 问题 部 分 (R FAQ) 了 解 每 一 个 中 添加 包 的 功能 。 

所 有 的 CRAN 镜像 库 列表 可 以 从 网 站 http: //cran. r-project. org/mirrors. html 得 到 。 
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在 R 网 站 找到 更 多 的 R 文档 。R 软件 带 有 一 组 HTML 文件 ， 可 以 使 用 Web 浏览 器 读 取 它们 。 在 
Windows 版 本 的 R 上 ， 可 以 通过 帮助 菜单 来 访问 这 些 网 页 。 另 外 ， 也 可 以 在 R 提示 符 下 执行 命令 
help. start( ) 来 启动 浏览 器 以 显示 这 些 HTML 帮助 页 面 。 另 一 种 得 到 帮助 的 形式 是 使 用 help( ) 
函数 。 例 如 ， 如 果 需 要 plot( ) 函数 的 帮助 信息 ， 可 以 输入 命令 “help (plot)” (或 者 ? plot) 。 
如 果 连 接 到 互联 网 ， 那 么 一 个 相当 强大 的 功能 就 是 使 用 RSiteSearch( ) 函数 ， 用 它 来 搜索 邮件 列 
表 文 档 、R 手册 和 R 帮助 页 面 中 的 关键 词 或 短语 ,例如 : 

> RSiteSearch('neural networks') 

最 后 , 在 Web 上 还 有 儿 个 地 方 可 以 找到 R 的 各 种 帮助 内 容 ， 如 网 站 http: //www. 
rseek. org/ 。 


1.2.2 R 对 象 

R 语言 有 两 个 主要 概念 ， 对 象 和 函数 。R 对 象 可 以 看 做 是 具有 关联 名 称 的 存储 空间 。R 中 的 
一 切 都 存储 在 一 个 对 象 中 。 所 有 的 变量 、 数 据 、 函 数 等 都 是 以 命名 对 象 的 形式 存储 在 计算 机 的 内 
存 中 。 

函数 是 一 种 用 来 进行 某 个 操作 的 特殊 类 型 的 R 对 象 。 它 们 通常 接受 一 些 输入 参数 ， 通 过 执 
行 一 系列 的 操作 产生 结果 (它们 通常 由 其 他 函数 来 调用 ) 。R 已 经 有 大 量 的 函数 可 供 使 用 ,但 稍 
后 还 将 看 到 ， 用 户 还 可 以 创建 新 的 函数 。 

可 以 使 用 赋值 运算 符 把 内 容 存储 到 对 象 中 。 赋 值 运 算 符 是 用 一 个 尖 括 号 和 一 个 减 号 来 表示 
的 (<-)°; 
>x <- 945 
上 一 条 指令 的 作用 是 把 数值 945 存储 在 名 为 x 的 对 象 中 。 只 需要 在 R 提示 符 后 输入 对 象 的 名 
就 可 以 看 到 它 的 内 容 2。 


>x 


称 


- 


[1] 945 

而 在 数字 945 前 面 的 “ [1] ”可 以 读 作 “此 行 是 从 对 象 的 第 一 个 元 素 开始 显示 的 值 ” 。 后 面 
我 们 会 看 到 ， 这 样 的 显示 对 于 包含 多 个 值 的 对 象 〈 例 如 向 量 等 ) 特别 有 用 。 

下 面 给 出 其 他 赋值 语句 的 例子 。 这 些 例子 清楚 地 说 明 这 是 一 个 “破坏 性 ”的 操作 。 因 为 在 
任何 时 间 1， 一 个 对 象 只 能 有 一 个 给 定 的 内 容 。 这 意味 着 ,将 某 些 新 的 内 容 分 配给 现 有 对 象 时 ， 
该 对 象 就 失去 了 其 先前 的 内 容 。 

> y <- 39 

>y 

[1] 39 

> y <- 43 

>y 

[1} 43 

也 可 以 把 数值 表达 式 赋 给 一 个 对 象 。 在 这 种 情况 下 ， 该 对 象 将 存储 表达 式 的 结果 : 


>z<- 5 
>w<- 2°2 
>v 


日” 这 里 也 可 以 用 “=” 作为 赋值 运算 符 ， 但 是 不 建议 采用 ， 因 为 “ = ”可 能 与 相等 测试 混淆 。 
© ”如 果 名 称 输 入 不 正确 ， 则 会 得 到 错误 信息 ， 这 是 应 用 R 时 经 常 发 生 的 一 种 错误 ! 
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[1] 25 

> i <- (z * 2 + 45)/2 

>i 

[1] 27.5 

我 们 可 以 这 样 来 看 赋值 运算 : 无 论 运 算 符 右 侧 是 什么 ， 都 先 计 算 右 侧 ， 然 后 把 计算 结果 赋 给 
(存储 ) 赋值 号 左 侧 的 对 象 。 

如 果 只 是 想 知道 某 些 算术 运算 的 结果 ， 那 么 不 需要 把 表达 式 的 结果 赋 给 对 象 。 实 际 上 ， 可 以 
把 R 提示 符 作为 一 种 计算 器 : 

> (34 + 90)/12.5 


{i] 9.92 

创建 的 每 个 对 象 都 将 存储 在 计算 机 内 存 中 ， 直 到 删除 它 。 可 能 通过 输入 ls( ) 或 objects( ) 
命令 列举 出 当前 内 存 中 的 对 象 。 如 果 不 再 需要 一 个 对 象 了 ， 可 以 通过 删除 它 来 释放 一 些 内 存 
空间 : 

> IsQ) 

(1) “jn nyn “yn ny" "gu 

> m(y) 

> rm(z, w, i) 

对 象 名 称 可 以 包括 任何 大 写字 母 、 小 写字 母 、 数 字 0 ~ 9 (不 能 用 于 名 称 的 开头 ) ARAF 
母 作用 相似 的 符号 “.”。 注 意 , ER 中 的 名 称 是 区 分 大 小 写 的 ， 这 意味 着 Color 和 color 是 两 个 
不 同 的 对 象 。 实 际 上 ， 这 常常 是 导致 初学 者 遇 到 “ 找 不 到 对 象 ”错误 的 一 个 常见 原因 。 如 果 遇 
到 这 种 类 型 的 错误 ， 应 该 首先 检查 出 现 错误 的 对 象 名 称 的 正确 性 。 

12.3 向 量 

向 量 是 R 中 最 基本 的 数据 对 象 。 甚 至 当 把 单一 数字 赋 给 一 个 对 象 ( 例 如 x<-45.3) 时 ， 也 就 
创建 了 一 个 包含 单个 元 素 的 向 量 。 所 有 对 象 都 有 模式 (mode) 和 长 度 属 性 。 模 式 决 定 了 存储 在 对 
象 中 的 数据 类 型 。 向 量 用 来 存储 一 组 基本 类 型 相同 的 数据 。R 的 主要 基本 数据 类 型 是 字符 型 、 
逻辑 型 、 数 值 型 、 复 数 型 。 因 此 ， 向 量 可 以 是 字符 型 、 逻 辑 值 型 《T、F, 或 者 FALSE, TRUE)®, 
数值 型 和 复数 型 。 一 个 对 象 的 长 度 是 它 含 有 元 素 的 数量 ， 可 以 用 length( ) 函数 来 获取 。 6 

在 大 多 数 情况 下 ， 使 用 长 度 大 于 1 的 向 量 。 可 以 在 R 中 使 用 ec() 函数 和 相应 的 参数 来 创建 

一 个 向 量 : 

> v <- c(4, 7, 23.5, 76.2, 80) 

>v 


[1] 4.0 7.0 23.5 76.2 80.0 
> length(v) 

[1] 5 

> mode(v) 


[1] "numeric" 


O R 的 字符 型 数据 事实 上 是 一 组 字符 ， 而 不 是 你 可 能 认为 的 单个 字符 ， 这 在 其 他 编程 语言 中 常常 称 为 字符 串 类 型 。 
O EMER 中 的 名 称 是 大 小 写 敏 感 的 。 因 此 ，True 不 是 一 个 有 效 的 逻辑 值 。 


6“， 数据 挖 拥 与 R 语言 


一 个 向 量 的 所 有 元 素 都 必须 属于 相同 的 模式 。 如 果 不 是 ，R 将 强制 执行 类 型 转换 。 下 面 就 是 
这 样 的 一 个 例子 : 


> v <- c(4, 7, 23.5, 76.2, 80, "rrt") 
>v 


[i] ng Uir d "93.5" "76.2" "go" "rrt" 


向 量 的 所 有 元 素 已 转换 为 字符 模式 。 字 符 值 是 由 单 引号 或 双 引号 包含 的 字符 串 。 
所 有 向 量 可 以 包含 一 个 特殊 值 ， 即 NA， 该 值 代表 缺失 值 : 


> u <- c(4, 6, NA, 2) 
>u 


[1] 4 GNA 2 


> k <- c(T, F, NA, TRUE) 
>k 


[1] TRUE FALSE NA TRUE 
通过 方 括号 之 间 的 索引 ， 可 以 访问 一 个 向 量 的 某 个 特定 元 素 : 
> v[2] 
[1] "7" 
上 例 给 出 了 向 量 ”的 第 二 个 元 素 。 在 后 面 的 1.2.7 节 中 ， 我 们 将 学 习 使 用 索引 向 量 来 获得 更 
强大 的 索引 方法 。 
[8 | 通过 使 用 相同 的 索引 策略 ， 可 以 改变 一 个 特定 向 量 元 素 的 值 。 


> v[1] <- "hello" 
>v 


[1] "hello" "7" "23.5" "76.2" "80" "rrt" 
R 允许 创建 空 向 量 : 
> x <- vector() 


如 果 使 用 不 存在 的 索引 来 添加 向 量 元 素 ， 就 可 以 改变 向 量 的 长 度 。 例 如 ， 创 建 空 向 量 x 后 ， 
可 以 输入 


> x[3] <- 45 
>x 


[1] NA NA 45 


注意 ， 向 量 的 前 两 个 元 素 有 未 知 的 值 NA。 这 种 灵活 性 是 有 代价 的 。 与 其 他 编程 语言 不 同 ， 
如 果 在 R 中 使 用 一 个 不 存在 的 向 量 位 置 ， 不 会 得 到 错误 : 
> length (x) 


[1] 3 
> x[10] 
[1] NA 


> x[5] <- 4 
>x 


[1] NA NA 45 NA 4 
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为 了 缩小 向 量 的 大 小 ， 可 以 利用 之 前 提 到 过 的 赋值 运算 的 破坏 性 性 质 ， 例 如 : 
> v <- c(45, 243, 78, 343, 445, 44, 56, 77) 
>v 


[1] 45 243 78 343 445 44 56 77 


> v <- c(v[5], v[7]) 

>v 

[1] 445 56 

尽管 将 在 1. 2.7 节 学 习 使 用 更 强大 的 索引 方法 ， 但 这 里 仍然 可 以 用 一 个 简单 的 方法 删除 向 量 
的 特定 元 素 。 [9 | 
1.2.4 向 量化 

有 语言 最 强大 的 方面 之 一 就 是 函数 的 向 量化 。 这 些 函 数 可 以 直接 对 向 量 的 每 个 元 素 进行 操 
作 。 例 如 : 


> v <- c(4, 7, 23.5, 76.2, 80) 
> x <- sqrt(v) 
>x 


[1] 2.000000 2.645751 4.847680 8.729261 8.944272 


sqrt( ) 函数 计算 其 参数 的 算术 平方 根 。 这 种 情况 下 ， 使 用 数值 向 量 作为 它 的 参数 。 向 量化 
函数 输出 一 个 与 输入 参数 相同 长 度 的 结果 向 量 ,， 结果 向 量 的 每 个 元 素 是 函数 应 用 到 原来 输入 向 
量 的 相应 元 素 得 到 的 结果 。 

也 可 以 利用 R 的 这 个 特性 进行 向 量 的 算术 运算 : 

> vi <- c(4, 6, 87) 


> v2 <- c(34, 32.4, 12) 
> vi + v2 


[1] 38.0 38.4 99.0 
如 果 两 个 向 量 的 长 度 不 同 ， 向 量 应 该 如 何 运算 呢 ? R 将 使 用 循环 规则 ， 该 规则 重复 较 短 的 向 
量 元 素 ， 直 到 得 到 的 向 量 长 度 与 较 长 向 量 的 长 度 相同 。 例 如 ; 


> vi <- c(4, 6, 8, 24) 
> v2 <- c(10, 2) 
> vi + v2 


[1] 14 8 18 26 

它 是 把 向 量 (10,2) 扩 充 为 ec(10,2,10,2) 。 如 果 较 长 向 量 的 长 度 不 是 较 短 向 量 的 整数 倍 ， 
则 R 给 出 警告 : 

> vi <- c(4, 6, 8, 24) 


> v2 <- c(10, 2, 4) 
> y1 + v2 


[1] 14 8 12 34 
Warning message: 
In vi + v2: 
longer object length is not a multiple of shorter object length 


循环 规则 已 经 应 用 ， 运 算 也 完成 了 。( 这 里 只 是 给 出 一 个 警告 ， 而 不 是 错误 !) 
如 前 所 述 ， 单 个 数字 在 R 中 表示 为 长 度 为 1 的 向 量 。 这 种 表示 在 下 面 的 运算 中 非常 方便 : 


8° 数据 挖掘 与 R 语言 


> vi <- c(4, 6, 8, 24) 

>2* vi 

[1] 8 12 16 48 

注意 ， 数 字 2 (实际 上 是 向 量 (2) !) 被 循环 ， 导 致 v1 的 所 有 元 素 乘 以 2。 正 如 我 们 将 看 到 
的 ， 这 种 循环 规则 也 适用 于 其 他 的 对 象 ， 如 数组 和 矩阵 。 
1.2.5 因子 

因子 提供 了 一 个 简单 而 又 紧凑 的 形式 来 处 理 分 类 (名 义 ) 数据 。 因 子 用 水 平 来 表示 所 有 可 
能 的 取 值 。 如 果 数 据 集 有 取 值 个 数 固定 的 名 义 变 量 ， 因 子 就 特别 有 用 。 下 面 的 章节 将 要 学 习 的 多 
个 图 形 函 数 和 汇总 函数 就 应 用 了 因子 的 这 种 优点 。 对 用 户 来 说 ， 这 种 使 用 和 显示 因子 数据 的 方 
式 显然 是 易于 理解 的 ， 而 R 软件 内 部 以 数值 编码 方式 来 存储 因子 值 ， 这 将 大 大 提高 内 存 的 利用 
效率 。 

下 面 举例 说 明 如 何在 R 中 创建 因子 。 假 设 有 一 个 10 个 人 的 性 别 向 量 : 

> g <- c("f", "Mm", "mn", "m", "f", "m", "f", "m", "f", "f") 

> 8 

[1] nf " nm" "nm" "m" if 外 "m" nf " "m" "f " nf 

你 可 以 把 这 个 向 量 转 换 为 一 个 因子 : 

> g <- factor(g) 

>g 


[i] fmmmfmfmff 
Levels: f m 


注意 ， 得 到 的 不 再 是 一 个 字符 向 量 。 上 面 提 到 ， 实 际 上 这 些 因子 在 R 内 部 表示 为 数值 向 量 ” 。 
在 这 个 例子 中 ， 因 子 有 两 个 水 平 ,“f” 和“m'"， 在 R 内 部 分 别 表 示 为 1 和 2。 然 而 ， 你 不 需 
要 关心 这 个 内 部 表示 ， 因 为 你 可 以 使 用 “原始 的 ”字符 值 ，R 在 显示 因子 时 也 使 用 这 种 字符 
方式 。 因 此 ， 出 于 效率 的 考虑 ，R 因子 的 编码 转换 是 用 户 透明 的 。 
假设 有 另外 5 个 人 ， 需 要 把 他 们 的 性 别 信息 存储 在 另 一 个 因子 对 象 中 。 假 设 他 们 都 是 男 
Li] 性 。 如 果 仍 然 需要 这 个 因子 对 象 与 对 象 g 有 两 个 相同 的 因子 水 平 ， 则 必须 使 用 以 下 命令 : 


> other.g <- factor(c("m", "m", "m", "m", "m"), levels = c("f", 
+ "“m")) 
> other.g 


(1) mmnm m 
Levels: f m 


如 果 没 有 在 输入 参数 中 设 定 levels BR, AF other. g 将 只 有 一 个 水 平 (‘m’), 

ER 这样 的 函数 型 编程 语言 中 ， 最 常见 的 应 用 函数 的 方式 之 一 就 是 像 上 例 中 的 函数 复合 
方式 。 它 是 把 函数 (factor()) 应 用 到 另 一 个 函数 (c()) 的 结果 。 显 然 ， 我 们 可 以 首先 把 函 
ZO 的 结果 赋值 给 一 个 对 象 ， 然 后 再 用 该 对 象 调用 factor() 函数 。 然 而 ， 这 会 更 麻烦 并 且 
创建 多 余 对 象 也 会 浪费 内 存 ， 因 此 人 们 经 常 使 用 这 种 函数 复合 。 函 数 复合 的 缺点 是 ， 它 给 不 
熟悉 这 种 函数 复合 的 用 户 带 来 阅读 困难 。 

利用 因子 类 型 数据 ， 可 以 做 的 事情 之 一 是 计算 每 个 可 能 值 的 发 生 次 数 。 例 如 : 


© 可 以 通过 输入 mode(g) 来 确认 这 一 点 。 


第 1 章 ® 9 


> table(g) 


oT hh Oa 


m 
5 
> table(other.g) 


other.g 
fm 
05 


table() 函数 也 可 以 用 于 获取 多 个 因子 的 交叉 表 。 假 设 向 量 a 存储 10 个 人 所 属 的 年 龄 ， 
那么 可 以 得 到 这 两 个 向 量 的 交叉 表 : 

> a <- factor(c('adult','adult','juvenile','juvenile','adult','adult', 

+ 'adult','juvenile','adult','juvenile')) 

> table(a,g) 


8 
a 


fm 

adult 42 
juvenile 1 3 

你 可 能 已 经 注意 到 有 的 行 是 以 一 个 “+ ”号 开始 ， 当 一 行 代码 太 长 ， 你 决定 在 命令 完成 
之 前 另 起 一 个 新 行 ( 按 “ 回 车 ” 键 ) 时 ， 就 会 使 用 “ +” 号， 这 时 候 由 于 上 一 行 没 有 完 ， 所 
以 R 在 新 起 的 一 行 以 “+ ”开始 ， 它 是 新 行 继续 提示 符 。 要 记 住 的 是 ， 新 行 继续 提示 符 不 是 
输入 的 ! 它们 是 由 R (如 正常 提示 符 “ >”) 自动 输出 的 。 

有 了 时候， 我 们 希望 计算 列 联 表 的 边际 和 相对 频率 。 下 面 给 出 了 上 面 数据 集 的 性 别 和 年 龄 
因子 的 总 计 : 

> t <- table(a, g) 

> margin.table(t, 1) 


a 
adult juvenile 
6 4 


> margin.table(t, 2) 


g 
f m 


55 

函数 的 输入 参数 “1” 和 “2” 分 别 代表 列 联 表 的 第 一 个 和 第 二 个 维度 ， 即 表 t 的 行 和 列 。 
每 个 维度 边际 和 总 计 的 相对 频率 如 下 : 

> prop.table(t, 1) 


区 
a f m 


adult 0.6666667 0.3333333 
juvenile 0.2500000 0.7500000 


> prop.table(t, 2) 


8 
a 


f m 
adult 0.8 0.4 


10 + KRZA R 语言 


[13 | 





juvenile 0.2 0.6 
> prop. table(t) 


8 
a f m 
adult 0.4 0.2 
juvenile 0.1 0.3 


注意 ， 如 果 需 要 的 是 百分比 ， 可 以 在 调用 函数 时 乘 以 100。 


1.2.6 生成 序列 


R 提供 了 多 种 生成 不 同类 型 序列 的 方法 。 比 如 ， 创 建 一 个 包含 1 ~ 1000 所 有 整数 的 向 量 ， 


可 以 简单 地 输入 


> x <~- 1:1000 


就 创建 了 一 个 名 为 x 的 向 量 ， 向 量 x 包含 了 1000 个 元 素 ， 即 1 ~ 1000 的 所 有 整数 。 


注意 运算 符 “:” 的 优先 级 ， 我 们 通过 下 面 的 例子 来 说 明 这 个 问题 : 

> 10:15 - 1 

[ 9 10 11 12 13 14 

> 10:(15 - 1) 

{1] 10 11 12 13 14 

这 里 需要 理解 第 一 个 命令 的 结果 ( 记 住 循环 规则 ) ,“:” 的 优先 级 高 于 减法 “- ”。 
同样 ， 可 以 生成 如 下 的 递减 序列 : 

> 5:0 

[1] 543210 


可 以 利用 函数 seq( ) 生成 实数 序列 ， 比 如 : 
> seq(-4, 1, 0.5) 


[1] -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 


生成 了 从 -4 ~1、 以 0. 5 为 增 量 的 一 个 实数 序列 。 函 数 seq( ) 还 有 其 他 功能 。 下 面 举例 说 明 
seq( ) 函数 的 其 他 功能 : 


> seq(from = 1, to = 5, length = 4) 

[1] 1.000000 2.333333 3.666667 5.000000 
> seq(from = 1, to = 5, length = 2) 

[1] 1 5 

> seq(length = 10, from = -2, by = 0.2) 


[1] -2.0 -1.8 -1.6 -1.4 -1.2 -1.0 -0.8 -0.6 -0.4 -0.2 


你 可 能 已 经 注意 到 ， 在 上 面 的 例子 中 , 在 函数 调用 中 可 以 有 不 同 的 方式 给 出 函数 参 
先 给 出 参数 名 ， 再 给 出 该 参数 需要 使 用 的 特定 参数 值 。 因 此 ， 当 我 们 使 用 带 有 多 个 参 


O 你 可 以 通过 在 R 命令 窗口 输入 “? seq” 得 到 函数 seq( ) 的 帮助 信息 。 通 过 阅读 函数 seq( ) 的 帮助 文档 ， 可 
以 更 好 地 理解 和 掌握 函数 seq( ) 的 参数 和 其 他 函数 形式 。 
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数 且 大 部 分 参数 都 采用 默认 值 的 函数 时 ， 这 将 非常 方便 。 一 旦 这 些 参数 默认 值 满足 我 们 的 需 
要 ,我 们 就 可 以 避免 人 为 地 指定 设置 这 些 参数 。 但 是 ， 如 果 这 些 默 认 值 不 适用 于 我 们 的 问题 ， 
那么 我 们 就 需要 提供 其 他 可 选 值 。 如 果 没 有 像 上 面 例子 那样 通过 参数 名 设 定 参 数 ， 则 需要 根 
据 参 数位 置 来 设 定 参数 值 。 如 果 想 要 改变 的 默认 值 参数 是 函数 的 最 后 参数 之 一 ， 那 么 根据 参 
数位 置 设 定 将 要 求 对 该 参数 之 前 所 有 的 参数 值 进行 设 定 ， 不 管 是 否 使 用 的 是 参数 的 默认 值 。。 
因为 在 设 定 参数 值 时 给 出 了 参数 的 名 称 ， 所 以 按 名 称 设 定 参 数 可 以 在 函数 调用 中 改变 参数 的 
顺序 。 

另 一 个 产生 具有 某 种 模式 序列 的 有 用 函数 是 rep( ) 函数 。 比 如 : 

> rep(5，10) 


11] 5555555555 
> rep("hi", 3) 
[1] "hi" "hi" "hi" 
> rep(1:2, 3) 
[1] 121212 
> rep(1:2, each = 3) 


[1] 111222 

ga) BRT ATE wera ATH. ARR RAAE gk, n), Hp k RAT KF 
的 个 数 ，n 是 每 个 水 平 的 重复 数 。 这 里 举 两 个 例子 ， 

> g1(3, 5) 


f113111112222233333 
Levels: 1 2 3 


> gl(2, 5, labels = c("female", "male")) 


[1] female female female female female male male male male male 

Levels: female male i 

最 后 ，R 有 多 个 可 以 根据 不 同 概率 密度 函数 来 生成 随机 序列 的 函数 。 这 些 函 数 的 通用 结 
FUSE rfunc(n, parl, par2, =), HP func 是 概率 分 布 的 名 称 ，n 是 要 生成 的 随机 数 的 个 
数 ，parl，par2 ，… 是 概率 密度 函数 所 需要 的 一 些 参 数值 。 例 如 ， 可 以 产生 10 个 服从 均值 
为 0、 标 准 差 为 1 的 正 态 分 布 的 随机 数值 : 

> rnorm(10) 


[1] -0.74350857 1.14875838 0.26971256 1.06230562 -0.46296225 
[6] -0.89086612 -0.12533888 -0.08887182 1.27165411 0.86652581 


为 了 产生 4 个 服从 均值 为 0、 标 准 差 为 3 的 正 态 分 布 的 随机 数值 ， 可 以 使 用 


> rnorm(4, mean = 10, sd = 3) 
[1] 5.319385 15.133113 8.449766 10.817147 


为 了 获得 5 个 服从 自由 度 为 10 的 上 分 布 的 随机 数值 ， 可 以 输入 


O ”实际 上 ， 我 们 可 以 简单 地 使 用 逗号 直到 达到 我 们 所 期 望 的 位 置 ， 如 seq(1,4,,40) 。 


12+ 数据 挖掘 与 R 语言 


> rt(5, df = 10) 

[1] -1.2697062 0.5467355 0.7979222 0.4949397 0.2497204 

R 有 更 多 的 概率 函数 ， 以 及 其 他 获取 概率 密度 、 累 计 概率 和 这 些 分 布 的 分 位 数 函 数 。 
1.2.7 数据 子 集 

前 面 例子 中 提 到 ， 可 以 在 方 括号 内 放 人 元 素 的 位 置 来 获得 向 量 中 的 某 个 元 素 。R 也 允许 
在 方 括号 中 使 用 向 量 。R 有 多 种 类 型 的 索引 向 量 。 逻 辑 索引 向 量 可 以 提取 相应 于 真 值 的 元 素 。 
让 我 们 来 看 一 个 具体 的 例子 : 


> x <- c(0, -3, 4, -1, 45, 90, ~5) 
15 >x>0 
16 [1] FALSE FALSE TRUE FALSE TRUE TRUE FALSE 
上 面 显示 的 第 二 个 命令 是 逻辑 条 件 。 由 于 x 是 向 量 ， 所 以 将 向 量 中 所 有 的 元 素 与 0 进行 比 
较 ，( 这 里 应 用 了 循环 规则 !) 产生 一 个 长 度 与 向 量 x 相同 的 逻辑 值 向 量 。 如 果 使 用 该 逻辑 值 
向 量 对 x 进行 索引 ， 就 可 以 得 到 相应 TRUE 值 位 置 的 向 量 x 的 元 素 : 
> x[x > 0] 
[1] 4 45 90 
土 面 代码 可 以 这 样 理 解 : 给 出 逻辑 表达 式 为 真 的 x 的 位 置 。 注 意 ， 这 是 应 用 孙 数 复合 的 
另 一 个 例子 ， 函 数 复合 在 本 书 中 应 用 得 相当 频繁 。 利 用 R 中 的 逻辑 运算 符 ， 可 以 使 用 更 复杂 
的 逻辑 索引 向 量 ， 例 如 : 
> x[x <= -2 | x > 5] 


[1] -3 45 90 -5 


> x[x > 40 & x < 100] 


[1] 45 90 

你 可 能 已 经 猜 到 :“ | ”运算 符 表示 逻辑 或 ;“&” 运 算 符 表示 逻辑 与 5。 这 表明 ， 第 一 个 
命令 要 求 小 于 等 于 -2， 或 者 大 于 5 的 x 的 元 素 。 第 二 个 例子 表示 大 于 40 同时 小 于 100 的 x 中 
的 所 有 元 素 。 


R 还 可 以 使 用 整数 向 量 来 提取 向 量 中 的 多 个 元 素 ， 索 引 向 量 中 的 数字 表示 提取 的 元 素 在 
原 向 量 中 的 位 置 。 例 如 ， 
[17 | > x{e(4, 6)] 


[1] -1 90 
> xf1:3] 
[1 0-3 4 


> y <- c(i, 4) 
> xiy] 


[1] 0 -1 


O R 也 有 替代 上 面 单 运算 符 的 双 运 算 符 ， 即 && 和 1 1 ， 它 们 执行 相同 的 运算 。 这 两 个 替代 运算 符 从 左 到 右 来 计 
算 表 达 式 ， 并 且 只 检验 向 量 的 第 一 个 元 素 ， 而 单字 符 运 算 符 则 检验 向 量 的 每 个 元 素 。 
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另外 ， 也 可 以 使 用 一 个 负 值 的 索引 向 量 来 表示 哪些 元 素 可 以 排除 。 例 如 : 

> x{-1] 

[1] -3 4 -1 45 90 -5 

> x[-c(4, 6)] 

[1] 0 -3 4 45 -5 

> x[-(1:3)] 

[1] -1 45 90 -5 

注意 ， 在 上 面 的 第 三 个 例子 中 ， 由 于 运算 符 “:” 的 优先 级 较 高 ， 所 以 我 们 使 用 了 括号 。 

可 以 通过 R 函数 names( ) 来 给 向 量 中 的 元 素 命 名 。 对 于 命名 的 向 量 元 素 ， 可 以 通过 字符 
串 向 量 来 进行 索引 。 由 于 命名 的 元 素 位 置 更 容易 记 住 ， 所 以 有 时 候 命 名 元 素 更 受 欢 迎 。 例 如 ， 
在 5 个 不 同 的 地 方 测量 了 一 个 化 学 参数 的 测量 值 向 量 。 可 以 创建 如 下 的 命名 向 量 : 


> pH <- c(4.5, 7, 7.3, 8.2, 6.3) 
> names(pH) <- c("areai", "area2", "mud", "dam", "middle") 
> pH 
areai area2 mud dam middle 
4.5 7.0 7.3 8.2 6.3 


实际 上 ， 如 果 在 创建 向 量 时 ， 已 经 知道 向 量 中 位 置 的 名 称 ， 那 么 下 面 的 方式 更 简单 : 


> pH <- c(areal = 4.5, area2 = 7, mud = 7.3, dam = 8.2, middle = 6.3) 


现在 可 以 使 用 上 面 给 出 的 名 称 对 pH 向 量 进行 索引 : 
> pH["mud"] 


mud 
7.3 


> pH[c("area1", "dam")] 

areal dam 

4.5 8.2 

最 后 ， 当 索引 为 空 时 ， 表 示 所 有 的 元 素 都 被 选 定 。 空 索引 表示 是 在 选择 过 程 中 没有 限制 
条 件 。 例 如 ， 需 要 给 一 个 向 量 赋予 零 值 ， 那 么 可 以 简单 地 写成 “x[] <-0”。 注 意 ， 这 与 
“x<-0” 不 同 。 后 一 种 情况 表示 把 含有 单一 元 素 (SF) 的 向 量 赋 给 x， 而 前 面 一 种 情况 ( 假 
设 之 前 存在 向 量 x) 将 会 使 得 向 量 * 的 所 有 元 素 都 变 成 零 。 试 一 下 这 两 种 代码 ! [ 18 | 
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数据 元 素 可 以 保存 在 具有 多 个 维度 的 对 象 中 。 在 多 种 情况 下 这 尤其 有 用 。 数 组 存储 的 是 
多 维 数 据 元 素 。 和 矩阵 是 数组 的 特殊 情况 ， 它 具有 两 个 维度 。 在 R 中 ， 数 组 和 抢 阵 都 是 带 有 维 
度 这 个 特定 属性 的 向 量 。 假 设 有 一 个 数值 向 量 c(45, 23, 66, 77, 33, 44, 56, 12, 78, 
23 ) ， 下 面 把 这 10 个 数值 组 织 为 一 个 矩阵 ; 

>m <- c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23) 

>m 


[1] 45 23 66 77 33 44 56 12 78 23 


> dim(m) <- c(2, 5) 
>m 


14+ 数据 挖 拥 与 R 语言 


[,1] (,2] [,3] [,4] [,5] 
[1,] 45 66 33 56 78 
[2,] 23 77 44 12 23 


注意 ， 数 值 如 何 分 配 到 这 个 2 行 5 列 的 矩阵 中 (这 里 用 函数 dim( ) 来 给 维度 m 赋值 ) 。 
其 实 ， 可 以 使 用 更 简单 的 命令 来 创建 该 矩阵 : 


> m <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
+ 5) 


你 可 能 已 经 注意 到 ， 向 量 中 的 数据 通过 和 矩阵 中 的 列 进行 扩展 。 首 先 ， 将 数据 填 到 第 一 列 ， 
然后 填 到 第 二 列 ， 以 此 类 推 。 可 以 通过 设 定 函 数 matrix( ) 的 参数 来 按 行 填充 矩阵 ， 


> m <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
+ 5, byrow = T) 
>m 


[,1] [,2] [,3] [,4] [,5] 
[1,] 45 23 66 77 33 
[2,] 44 56 12 78 23 


如 和 矩阵 的 显示 所 示 ， 可 以 通过 类 似 于 向 量 中 的 索引 方法 来 访问 和 矩阵 的 元 素 ， 但 现在 需要 
两 个 索引 (和 矩阵 的 维度 ) : 
> m[2, 3] 


[ae9 | [1] 12 
可 以 利用 1. 2.7 节 所 描述 的 索引 方法 来 提取 矩阵 中 的 元 素 ， 如 下 面 的 例子 所 示 : 


> m[-2, 1] 

[ 45 

> m[1, -c(3, 5)] 

[1] 45 23 77 

此 外 ， 如 果 忽 略 了 任 一 维度 ， 将 会 得 到 矩阵 的 所 有 行 或 列 ; 
> mfi, J 

[1] 45 23 66 77 33 

>al, 4] 

[1 77 78 


注意 ， 在 上 面 两 个 例子 中 ， 作 为 数据 子 集 ， 得 到 的 结果 可 能 是 一 个 向 量 。 如 果 需 要 得 到 
的 结果 仍然 是 一 个 和 矩阵， 那么 即使 它 是 一 个 1 行 或 者 1 列 的 矩阵 ， 都 可 以 使 用 下 面 的 命令 : 
> m[i, , drop = F] i 


[,1] [,2] [,3] [,4] [,5] 
[1,] 45 23 66 77 33 


> m[, 4, drop = F] 


[ ,1] 
[1,] 77 
[2,] 78 


函数 cbind( ) 和 rbind( ) 可 以 分 别 按 列 和 行 用 把 两 个 或 两 个 以 上 的 向 量 或 矩阵 合并 在 一 
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起 。 我 们 通过 下 面 的 例子 来 说 明 这 一 点 : 


> mi <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
+ 5) 
> mi 


[,1] {,2] (,3) [,4] [,5] 
[1,] 45 66 33 56 78 
[2,] 23 77 44 12 23 


> cbind(c(4, 76), mif, 4]) 
[,1] (,2] 
(1,] 4 56 


[2,] 76 12 


> m2 <- matrix(rep(10, 20), 4, 5) 
> m2 


[,1] €,2) [,3] [,4] [,5] 
(1,] 10 10 10 10 10 
[2,] 10 10 10 10 10 
[3,] 10 10 10 10 10 
[4] 10 10 10 10 10 


> m3 <- rbind(mif1, J], m2[3, ]) 
> m3 


[,1] £,2] (,3] [,4] (,5] 
[1,] 45 66 33 56 78 
[2,] 10 10 10 10 10 
我 们 也 可 以 使 用 函数 colnames( ) 和 rownames() 分 别 给 和 矩阵 的 行 和 列 命名 ， 这 样 有 利于 
记 住 数据 的 位 置 。 


> results <- matrix(c(10, 30, 40, 50, 43, 56, 21, 30), 2, 4, 
+ byrow = T) 

> colnames(results) <- c("1qrt", “2qrt", "3qrt", "4qrt") 

> rownames(results) <- c("storei", "store2") 

> results 


iqrt 2qrt 3qrt 4qrt 
storel 10 30 40 50 
store2 43 56 21 30 


> results["storei", J 


igrt 2qrt 3qrt 4qrt 
10 30 40 650 


> results["store2", c("igqrt", "4grt")] 
igrt 4qrt 
43 30 - 


数组 是 矩阵 的 扩展 ， 它 把 数据 的 维度 扩展 到 两 个 以 上 。 这 意味 着 数组 中 的 元 素 需 要 两 个 
以 上 的 索引 。 除 此 之 外 ， 数 组 与 矩阵 类 似 ， 可 以 用 相同 的 方法 使 用 。 与 函数 matrix) 类 似 ， 
可 以 通过 函数 array() 方便 地 创建 数组 。 下 面 是 应 用 函数 array( ) 的 一 个 例子 : 
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> a <- array(1:24, dim = c(4, 3, 2)) 


>a 
>» 

[,1] [,2] [,3] 
[1,] 1 5 9 
[2,] 2 6 10 
[3,] 3 7 ii 
[4,] 4 8 12 
，，2 


[1,] 13 17 21 
[2,] 14 18 22 
{3,] 15 19 23 
[4,] 16 20 24 


我 们 可 以 使 用 与 向 量 索 引 同 样 的 方法 访问 数组 中 的 元 素 ， 如 下 面 例子 所 示 。 
> ali, 3, 2] 

[1] 21 

> alt, , 2] 

[ 13 17 21 

> al4, 3, J 

[1] 12 24 

> a[c(2, 3), , -2] 


(,1) [,2] [,3] 
(1,] 2 6 10 
[2,] 3 7 t 


尽管 有 时 候 理解 起 来 有 些 困 难 ， 但 循环 规则 和 算术 运算 规则 同样 适用 于 矩阵 和 数组 。 下 
面 是 几 个 例子 : 
> m <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 


+ 5) 
>m. 


[,1] £,2] [,3] [,4] [,5] 
[1,] 45 66 33 56 78 
[2,] 23 7 44 12 23 


>m* 3 


[,1] [,2] [,3] [,4] [,5] 
[1,] 135 198 99 168 234 
[2,] 69 231 132 36 69 


> mi <- matrix(c(45, 23, 66, 77, 33, 44), 2, 3) 
> mi 
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[,1] {,2] (,3] 
[1,] 45 66 33 
[2,] 23 77 44 


> m2 <- matrix(c(12, 65, 32, 7, 4, 78), 2, 3) 
> m2 


[,1] [,2] (,3) 
[1,] 12 32 4 
[2,] 65 7 78 


> mi + m2 


[,1] [,2] [,3] 
[1i,] 57 98 37 
[2,] 88 84 122 . 


R 也 包含 了 标准 的 矩阵 代数 运算 操作 和 函数 ， 可 以 阅读 R 随机 文档 “R 简介 ”的 第 五 节 
以 获取 矩阵 运算 的 更 多 信息 。 
1.2.9 列表 

R 列表 是 以 其 他 对 象 为 成 分 的 有 序 集合 。 列 表 的 成 分 和 向 量 的 元 素 不 同 ， 它 们 不 一 定 是 
同一 种 数据 类 型 、 模 式 或 者 相同 长 度 。 列 表 的 成 分 总 是 编号 的 并 且 有 一 个 名 称 属性 。 下 面 用 
一 个 简单 例子 来 说 明 如 何 构 造 一 个 列表 : 


> my.lst <- list(stud.id=34453, 
+ stud.name="Jobn", 
+ stud.marks=c(14.3,12,15,19)) 


WR my. lst 由 三 个 成 分 组 成 : 第 一 个 是 名 称 为 stud. id 的 数值 ; 第 二 个 是 名 称 为 stud. name 
的 字符 串 ， 第 三 个 是 名 称 为 stud. marks 的 数值 向 量 。 
和 查看 其 他 R 对 象 一 样 ， 通 过 输入 列表 的 名 称 来 查看 该 列表 的 内 容 ， 例如: 


> my.lst 


$stud.id 
[1] 34453 


$stud. name 
[1] "John" 


$stud.marks 

[1] 14.3 12.0 15.0 19.0 

可 以 通过 下 面 的 索引 方式 得 到 列表 的 元 素 : 
> my.lst[[1]] 

[1] 34453 

> my.1st [[3]] 


[1] 14.3 12.0 15.0 19.0 
注意 ， 上 例 中 应 用 了 双方 括号 。 如 果 应 用 命令 my. lst[ 1] ， 那 么 将 会 得 到 不 同 的 结果 : 
> my.ist [1] 


$stud. id 
[1] 34453 


18 + 数据 挖 扎 与 R 诺言 


22 
2 
24 


第 二 个 命令 获取 列表 my. lst 的 第 一 个 成 分 构成 的 子 列表 。 相 反 ，my. lst[[1]] 提取 列表 


的 第 一 个 组 件 的 值 (在 这 种 情况 下 是 一 个 数 ) ， 结 果 将 不 再 是 一 个 列表 ， 如 下 所 示 : 


> mode (ny. 1st [1]) 
[1] "list" 
> mode(my.1st[[1]]) 


[1] "numeric" 


对 于 含有 命名 成 分 的 列表 (如 上 例 所 示 ) ， 可 以 用 另 一 种 方式 来 提取 列表 成 分 的 值 : 
> ny. lst$stud.id 

[1] 34453 

列表 成 分 的 名 称 实际 上 是 列表 的 一 个 属性 ， 它 可 以 像 向 量 元 素 名 那样 进行 操作 : 

> names (my.1st) 


[1] "stud.id" "stud.name" "stud.marks" 


> names(my.lst) <- c("id", "name", "marks") 
> my.lst 


$id 
(1] 34453 


$name 
[1] H John n 


$marks 
[1] 14.3 12.0 15.0 19.0 


也 可 以 通过 添加 附加 元 素 的 方式 来 扩展 列表 : 


> my.lst$parents.names <- c("Ana", "Mike") 
> my.lst 


$id 
[1] 34453 


$name 
{i] "John" 


$marks 
[1] 14.3 12.0 15.0 19.0 


$parents.names 
[1] "Ana" "Mike" 


可 以 使 用 函数 length( ) 来 检查 列表 成 分 的 个 数 : 
> length(my.1st) 

[1] 4 

也 可 以 如 下 所 示 来 剔除 列表 的 成 分 ， 

> my.lst <- my.lst[-5] 

也 可 以 通过 函数 e( ) 来 合并 列表 : 


更 相似 。 实 际 上 ， 对 R 而 言 ， 数 据 框 是 一 类 特殊 的 列表 。 


列 ) 


> other <- list(age = 19, sex = "male") 


> Ist <- c(my.1st, other) 
> Ist 

$id 

[1] 34453 


$name 
[i] "John" 


$marks 
[1] 14.3 12.0 15.0 19.0 


$parents .names 
[1] "Ana" "Mike" 


$age 
[1] 19 


$sex 
[1] nale” 
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最 后 ， 可 以 通过 函数 unlist( ) 把 列表 中 的 所 有 元 素 转换 为 向 量 元 素 ， 转 换 后 的 向 量 元 素 
的 个 数 和 列表 中 所 有 数据 对 象 的 个 数 相同 。 该 操作 将 把 列表 中 不 同类 型 的 数据 转 为 统一 的 类 
型 ?， 这 意味 着 大 多 数 情 况 下 把 所 有 列表 数据 转换 为 字符 型 。 另 外 ， 得 到 的 向 量 元 素 都 有 一 个 
源 自 列表 成 分 的 名 称 : 


> unlist (my.1st) 


marks4 parents.namesi1 parents.names2 


id 
"34453" "John" 
wt 19" "ina" 
. 1.2.10 数据 框 


marks2 marks3 
"u 12 r n 15" 


数据 框 是 R hA TEAR ERARE, CASER M. Ri, 
与 矩阵 不 同 的 是 ， 数 据 框 的 每 列 可 以 有 不 同 数据 类 型 的 数据 。 在 这 个 意义 上 ， 数 据 框 和 列表 


可 以 把 数据 框 的 每 一 行 作为 一 个 观测 值 〈 或 称 为 个 案 ) ， 它 由 一 组 变量 (数据 框 的 命名 


来 描述 。 


可 以 用 下 列 方式 来 创建 数据 框 : 
> my.dataset <- data.frame(site=c('A','B','A','A','B'), 
+ season=c('Winter' ,'Summer' ,'Summer' ,'Spring' ,'Fall'), 
+ pH = c(7.4,6.3,8.6,7.2,8.9)) 


> my.dataset 

site season pH 
1 A Winter 7.4 
2 B Summer 6.3 
3 A Summer 8.6 
4 A Spring 7.2 
5 B Fall 8.9 


日 、 因 为 向 量 元 素 的 类 型 必须 相同 ， 参见 1. 2. 3 节 。 


25 
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27 
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可 以 像 矩 阵 那 样 访 问 数据 框 的 元 素 : 


> my.dataset[3, 2] 


[1] Summer 
Levels: Fall Spring Summer Winter 


注意 ,， “season” 列 的 所 有 元 素 为 字符 型 ， 因 而 该 列 被 转换 为 因子 类 型 。 类 似 地 ，“ site” 


列 也 是 因子 类 型 。 这 些 转换 是 函数 data. frame() 的 默认 行为 。 


1.2.7 节 给 出 的 索引 方法 也 适用 于 数据 框 。 另 外 ， 也 可 以 用 列 名 来 获取 数据 框 的 一 列 数据 : 


> my.dataset$pH 


[1] 7.4 6.3 8.6 7.2 8.9 


可 以 利用 R 的 数据 子 集 的 优势 来 方便 地 访问 数据 框 中 的 数据 ， 如 下 所 示 : 


> my.dataset [my.dataset$pH > 7, J 
site season pH 
1 A Winter 7.4 
3 A Summer 8.6 
4 A Spring 7.2 
5 B Fall 8.9 
> my.dataset [my.dataset$site == "A", "pH"] 
[1] 7.4 8.6 7.2 


> ny.dataset [my.dataset$season == "Summer", c("site", "pH")] 


site pH 
2 B 6.3 
3 A 8.6 


可 以 通过 应 用 函数 attach( ) SRA OE MASALA, PRR attach( ) 可 以 直接 访问 数据 框 的 列 ， 


而 无 需 添 加 相应 的 数据 框 名 : 


> attach(my.dataset) 
> my.dataset [site=='B', J 


site season pH 
2 B Summer 6.3 
5 B Fall 8.9 


> season 


[1] Winter Summer Summer Spring Fall 
Levels: Fall Spring Summer Winter 


函数 attach( ) 的 反 向 操作 是 函数 detach( ) ， 它 禁止 直接 访问 数据 框 的 列 。 


> detach (my.dataset) 
> season 


Error: Object "season" not found 


如 果 仅 对 数据 框 进行 简单 的 查询 ， 那 么 应 用 函数 subset( ) 将 十 分 方便 : 


© 参考 函数 data frame( ) 帮助 文档 中 应 用 函数 I( ) 的 例子 ,或 者 应 用 参数 stringsAsFactors 来 避免 这 种 强制 转换 。 
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> subset (my.dataset, pH > 8) 


site season pH 
3 A Summer 8.6 
5 B Fall 8.9 


> subset (my.dataset, season == "Summer", season: pH) 


season pH 
2 Summer 6.3 
3 Summer 8.6 


和 上 面 的 例子 不 同 ， 不 能 用 取 子 集 的 方式 来 改变 数据 框 中 数据 的 值 。 例 如 ， 如 果 需 要 把 季节 
为 “summer” 的 行 的 pH 值 加 1， 只 能 通过 下 列 方式 进行 : 
> my.dataset [my.dataset$season == 'Summer','pH'] <- 
+ ny.dataset [my.dataset$season == 'Summer','pH'] + 1 
与 列表 类 似 ， 可 以 在 数据 框 中 加 入 新 列 : [28] 
> my.dataset$N03 <- c(234.5, 256.6, 654.1, 356.7, 776.4) 
> my.dataset 


site season pH NO03 
1 A Winter 7.4 234.5 
2 B Summer 7.3 256.6 
3 A Summer 9.6 654.1 
4 A Spring 7.2 356.7 
5 B Fall 8.9 776.4 


对 于 加 入 新 列 的 唯一 限制 就 是 新 列 必须 和 已 有 的 数据 框 有 相同 的 行 数 ， 否 则 ，R 会 报错 。 可 
以 用 下 列 两 个 函数 来 获得 数据 框 的 行 数 或 列 数 : 


> nrow(my. dataset) 
[1] 5 
> ncol(my.dataset) 
[1] 4 


在 数据 挖掘 的 任务 中 ， 通 常 很 少 需要 用 上 面 提 到 的 ata. frame() 函数 来 手动 输入 数据 。 一 
般 是 把 来 源 于 文件 或 者 数据 库 的 数据 集 读 和 人 数据 框 。 在 后 面 的 数据 挖掘 案例 研究 章节 中 ， 你 将 
学 习 如 何 把 数据 导入 到 数据 框 中 。 无 论 如 何 ， 建 议 你 浏览 R 提供 的 “R 数据 导 人 和 导出 ”手册 ， 
TH R 所 具有 的 功能 。 

R 有 一 个 类 似 于 电子 表格 的 接口 ， 可 以 用 于 小 型 数据 的 输入 。 可 以 用 下 面 的 方式 来 编辑 一 个 
已 经 存在 的 数据 框 ; 


> my.dataset <- edit(my.dataset) 


或 者 可 以 创建 一 个 新 的 数据 框 ， 


> new.data <- edit (data.frame ()) 


可 以 用 一 个 名 称 向 量 来 改变 数据 框 的 列 名 : 


> names (my.dataset) 


[1] "site" "season" "pH" "NO3" 
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> names(my.dataset) <- c("area", "season", "pH", "N03") 
> my.dataset 


area season pH NO3 
1 A Winter 7.4 234.5 
2 B Summer 7.3 256.6 
3 A Summer 9.6 654.1 
4 A Spring 7.2 356.7 
5 B Fall 8.9 776.4 


因为 数据 框 的 名 称 属 性 是 向 量 ， 所 以 如 果 仅 仅 需 要 改变 数据 框 某 个 特定 列 的 名 称 ， 就 可 以 
输入 : 

> names (my.dataset)[4] <- "P04" 

> my.dataset 


area season pH P04 
1 A Winter 7.4 234.5 
2 B Summer 7.3 256.6 
3 A Summer 9.6 654.1 
4 A Spring 7.2 356.7 
5 B Fall 8.9 776.4 


最 后 ，R 有 一 些 “ 内 置 ”的 数据 集 ， 可 以 用 它们 来 学 习 和 探索 R 的 功能 。 大 多 数 的 R 添加 
包 也 有 自 带 的 数据 集 。 为 了 获取 已 有 数据 集 的 信息 ， 可 以 执行 下 列 命令 : 


> data() 


可 以 通过 下 列 方式 来 应 用 已 有 的 数据 集 ; 


> data(USArrests) 


上 面 的 命令 “创建 ”了 一 个 名 为 USArrests HEGRE, EA AN BER 中 相应 问题 的 数 
据 集 。 
1.2.11 构建 新 函数 
R 允许 用 户 构造 新 函数 。 当 需要 自动 化 某 些 不 断 重复 的 任务 时 ， 应 用 R 的 这 一 特性 将 十 分 
有 用 。 每 次 需要 执行 任务 时 ， 可 以 不 用 重 写 任务 指令 ， 可 以 把 这 些 指令 封装 在 一 个 新 函数 中 ， 然 
后 在 必要 时 应 用 该 函数 就 可 以 了 。 
R 函数 是 与 前 面 看 到 的 对 象 有 类 似 结构 的 一 种 对 象 。 作 为 对 象 ， 函 数 可 以 存储 值 。 存 储 在 函 
数 中 的 “ 值 ”是 一 组 指令 ， 当 R 调用 该 函数 时 执行 这 组 指令 。 因 此 ， 为 了 构建 新 函数 ， 需 要 用 
赋值 运算 符 把 函数 的 内 容 存储 到 一 个 对 象 名 〈 即 函数 名 ) Fo 
29 下 面 举 一 个 简单 的 例子 。 假 设 需要 计算 一 组 数据 的 均值 的 标准 误差 。 根 据 定义 ， 样 本 均值 的 


30 | 标准 误差 为 : 
SETEN 
这 里 是 样本 方差 ，n 是 样本 大 小 。 
给 定 一 个 数值 向 量 ， 现 在 需要 计算 相应 的 标准 误差 。 先 命名 该 函数 为 we， 在 创建 该 函数 之 
前 ， 我 们 需要 检查 R 中 是 否 已 经 有 一个 同名 的 函数 存在 。 如 果 的 确 有 同名 的 函数 存在 ， 那 么 最 
好 选择 一 个 不 同 的 名 称 ， SU, AER 中 已 经 存在 的 R 函数 对 用 户 隐藏 起 来 9。 为 了 检查 一 个 函 


日 ”这 里 对 用 户 隐藏 的 标准 函数 仍然 是 存在 的 。 但 是 ， 在 搜索 路 径 中 与 它 具 有 相同 名 称 的 用 户 自 定义 函数 位 于 其 
顶部 ， 因 此 “隐藏 ”了 R 的 标准 函数 。 
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数 在 R 中 是 否 已 经 存在 ， 在 R 命令 行 提 示 符 处 输入 函数 名 就 可 以 了 : 


> se 


Error: Object "se" not found 


R 给 出 错误 信息 说 明 这 个 名 称 在 R 中 不 存在 ， 可 以 放心 使 用 。 如 果 一 个 名 称 为 se 的 函数 
(或 者 其 他 对 象 ) 已 经 存在 ， 那 么 R 将 输出 该 对 象 的 内 容 ， 而 不 是 输出 错误 信息 。 
下 面 是 创建 新 函数 的 一 种 可 能 方式 : 


> se <- function(x) { 
+ v <- var(x) 

+ n <- length(x) 

+ return(sqrt (v/n)) 
+} 


因此 ， 为 了 构建 一 个 函数 对 象 ， 使 用 下 面 的 通用 形式 给 函数 名 赋值 : 


function(<set of parameters>) { <set of R instructions> } 


创建 完成 该 函数 后 ， 可 以 用 下 列 方式 进行 调用 : 
> se(c(45,2,3,5,76,2,4)) 


[1] 11.10310 


与 上 面 的 se( ) 函数 一 样 ， 如 果实 现 一 个 函数 需要 执行 许多 操作 ， 那 么 需要 以 某 种 形式 告诉 
R 该 函数 体 何 时 开始 ， 何 时 结束 。R 用 大 括号 作为 一 组 指令 的 开始 和 结束 的 语法 元 素 。 
任何 函数 的 返回 值 都 可 以 由 函数 retum( ) 确定 ， 或 者 R 返回 函数 中 最 后 运算 表达 式 的 结果 。 
下 面 的 函数 演示 了 这 一 点 ， 并 应 用 了 有 默认 值 的 参数 。 [31 | 


> basic.stats <- function(x,more=F) { 
+ stats <- list() 


+ 
+ clean.x <- x[lis.na(x)] 

+ 

+ stats$n <- length(x) 

+ stats$nNAs <- stats$n-length(clean.x) 

+ 

+  stats$mean <- mean (clean. x) 

+ stats$std <- sd(clean.x) 

+  stats$med <- median(clean.x) 

+ if (more) { 

+ stats$skew <- sum(((clean.x-stats$mean)/stats$std)“3) / 
+ length (clean.x) 

+ stats$kurt <- sum(((clean.x-stats$mean)/stats$std)“4) / 
+ length(clean.x) - 3 

+ +} 

+ wunlist (stats) 

+} 


上 述 函 数 的 一 个 参数 (RET) 有 默认 值 (了 ) 。 这 意味 着 调用 该 函数 时 可 以 设置 或 者 不 设 
置 该 参数 。 如 果 调 用 该 函数 时 没有 设 定 第 二 个 参数 的 值 ， 那 么 该 参数 将 应 用 它 的 默认 值 。 下 例 给 
出 了 这 两 种 方式 的 示例 : 

> basic.stats(c(45, 2, 4, 46, 43, 65, NA, 6, -213, -3, -45)) 


n nNAs mean std ned 
11.00000 1.00000 -5.00000 79.87768 5.00000 
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> basic.stats(c(45, 2, 4, 46, 43, 65, NA, 6, -213, -3, -45), 
+ more = T) 


n nNAs mean std med skew kurt 
11.000000 1.000000 -5.000000 79.877684 5.000000 -1.638217 1.708149 


函数 basic. stats() 引入 R 的 一 种 新 指令 : if( ) 指令 。 该 指令 可 以 使 某 些 指令 在 逻辑 测试 为 
真 值 时 执行 。 在 上 面 的 例子 中 ， 有 两 行 指令 分 别 计算 向 量 值 的 偏 度 (skew) AERE (kurt), 4 
REE more 的 值 为 真 时 ， 它 们 才 执 行 ; 否则 ， 它 们 将 被 跳 过 而 不 执行 。 

另 一 个 重要 的 指令 是 for( ) 。 该 指令 允许 一 组 指令 重复 地 执行 多 次 。 下 面 是 应 用 该 指令 的 
例子 : 


> f <- function(x) { 
+ for(i in 1:10) { 


+ res <- x*i 

+ cat (x,'*',i,'=',res,'\n') 
+ +} 

+} 


试 着 用 某 些 数 调用 函数 f( ) (例如 f(5))。 上 面 的 函数 中 的 for 指令 告诉 R， 它 后 面 大 括 
号 内 的 指令 需要 执行 多 次 (这 里 为 10 次 )。 也 就 是 说 ， 这 些 指 令 随 着 每 次 i 取 不 同 的 值 而 被 
重复 执行 ，i 的 取 值 为 集合 1: 10， 即 1，2，3，…，10。 它 意味 着 在 for 里 的 指令 将 被 执行 10 
次 ， 每 次 i 取 不 同 的 值 。 关 键 词 in 后 面 的 值 可 以 是 任何 向 量 ,， 它们 不 必须 是 序列 或 者 数值 型 。 
函数 cat( ) 用 于 将 多 个 对 象 的 内 容 输 出 到 屏幕 。 也 就 是 说 ， 字 符 型 数据 将 输出 它 自身 〈 试 运行 
cat 《'hello!1' ) ) ， 而 其 他 对 象 将 输出 它们 的 内 容 ( 试 运行 yY<-45， 然 后 cat(y)). FAR “An” 
使 R 换 到 下 一 行 输 出 。 

1.2.12 对象、 类 和 方法 

R 的 设计 原则 之 一 是 方便 数据 的 操作 ， 这 样 我们 就 可 以 容易 地 进行 数据 分 析 任 务 。 在 R 中 ， 
数据 以 对 象 的 形式 存储 。 前 面 提 到 ，R 中 的 一 切 ， 从 简单 的 数值 到 函数 、 或 更 复杂 的 数据 结构 
等 ， 都 是 对 象 。 每 一 个 R 对 象 都 是 属于 一 类 。 类 定义 了 属于 它们 对 象 的 抽象 特征 。 也 就 是 说 ， 
类 定义 了 属于 它们 对 象 的 特征 和 行为 (或 者 方法 )。 例 如 ， 和 矩阵 类 (matrix X) 有 维度 属性 和 针 
对 某 些 运 算 的 一 些 特殊 行为 。 事 实 上 ， 当 查询 R 的 矩阵 内 容 时 ，R 在 屏幕 上 以 一 种 特定 的 形式 
输出 矩阵 。 这 是 因为 所 有 来 自 矩 阵 类 的 对 象 都 有 一 个 相关 联 的 特定 输出 方法 。 总 之 ， 一 个 对 象 所 
属 的 类 将 决定 : 1) 某 些 泛 型 靖 数 应 用 于 这 些 对 和 象 时 将 应 用 的 方法 ; 2) 对 象 的 表示 方法 。 对 象 
的 表示 由 存储 在 类 对 象 的 信息 构成 。 

R 有 许多 预定 义 的 对 象 类 和 相关 的 方法 。 基 于 这 些 已 有 的 对 象 类 ， 可 以 创建 新 的 对 象 类 和 新 
方法 。 新 方法 可 以 是 新 类 的 方法 ， 也 可 以 是 已 有 类 的 方法 。 新 类 一 般 建 立 在 已 有 类 的 基础 上 ， 通 
常 它们 在 已 有 类 的 表示 上 添加 新 信息 。 

类 的 表示 由 一 组 格子 构成 。 每 个 格子 有 一 个 名 称 和 决定 它 所 存储 信息 相关 联 的 类 。 运 算 符 
“@ ”用 来 获取 存储 在 对 象 格子 中 的 信息 。x@y 表示 存储 在 对 象 x 中 的 格子 y 的 值 。 显 然 ， 它 假 

32 | 定 * 所 属 的 类 含有 一 个 名 为 y 的 格子 的 信息 。 

另 一 个 与 类 有 关 的 概念 是 类 继承 。 继 承建 立 了 两 个 类 之 间 的 关系 ， 它 允许 在 一 个 已 有 类 上 
添加 额外 的 信息 从 而 扩展 为 一 个 新 类 。 这 种 类 扩展 意味 着 新 类 继承 了 已 有 类 的 所 有 方法 ， 这 将 
大 大 方便 新 类 的 创建 ， 而 不 必 从 头 开 始 。 这 时 ， 我 们 仅仅 需要 实现 新 类 中 不 同 于 它 所 扩展 类 的 
操作 。 

最 后 一 个 重要 概念 是 多 态 。 有 些 函 数 可 以 应 用 于 多 个 不 同 的 对 象 类 ， 产 生 相应 于 该 对 象 类 
的 结果 。 在 R 中 ， 多 态 与 泛 型 函数 紧密 联系 在 一 起 。 泛 型 函数 实现 了 某 些 通用 的 高 级 操作 。 例 
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如 ， 前 面 用 到 的 函数 plot( ) 可 以 产生 对 象 的 图 形 表示 ， 这 是 该 函数 的 通用 目的 。 然 而 ， 随 着 对 
象 类 的 不 同 ， 它 们 的 图 形 表 示 实 际 上 是 不 同 的 。 例 如 ， 绘 制 一 组 数值 和 绘制 线性 模型 是 不 同 的 。 
用 户 只 无 需 担 忧 这 点 ， 多 态 性 是 解决 这 种 不 同 的 关键 。 用 户 只 需要 知道 有 函数 会 产生 对 象 的 图 
形 表示 。R 和 它 的 内 部 机 制 负责 调 度 这 些 提供 图 形 表 示 的 特定 类 的 通用 函数 。 所 有 这 些 函 数 调度 
的 细节 都 隐藏 在 R 内 部 ， 用 户 无 需 了 解 这 些 琐 碎 的 细节 。 事 实 上 ，R 知道 plot( ) 是 一 个 泛 型 函数 ， 
它 搜索 适用 于 调用 plot( ) 函数 的 类 对 象 的 特定 pot 方法 。 如 果 存 在 这 样 一 个 特定 的 方法 ， 那 么 
R 将 应 用 该 方法 ; 否则 ，R 将 调用 默认 的 绘图 方法 。 当 用 户 决 定 创建 一 个 新 的 对 象 类 时 ， 他 们 决 
定 是 否 需 要 该 对 象 类 的 特定 方法 。 因 此 ， 当 他 们 需要 绘制 新 的 类 对 象 时 ， 需 要 提供 该 对 象 类 的 特 
定 绘图 方法 ， 该 绘图 方法 将 “告诉 ”R 如 何 绘制 这 个 新 的 对 象 类 。 

以 上 是 R 的 类 和 方法 的 基本 概念 。 创 建新 类 和 相应 的 方法 超出 本 书 的 讨论 范围 ， 读 者 可 以 
人 参考 有 关 R 编程 的 书籍 ， 例 如 Chambers 的 优秀 书籍 (Software for Data Analysis) (2008 ) 。 
1.2.13 管理 R 会 话 

当 用 R 来 解决 复杂 的 问题 时 ， 交 互 式 的 命令 行 方式 就 变 得 很 不 方便 。 这 时 ， 实 际 的 做 法 是 
把 R 代码 写 人 一 个 文本 文件 中 ,然后 让 R 来 执行 这 些 代 码 。 为 了 生成 这 样 的 文件 ， 可 以 用 你 喜 
欢 的 文本 编辑 器 来 编辑 (例如 记事 本 、Emacs 等 ) ， 或 者 在 Windows 操作 系统 中 ， 可 以 使 用 R 自 
带 的 脚本 编辑 器 ， 它 在 R 软件 的 “文件 ”菜单 中 可 以 找到 。 当 建立 了 代码 文件 并 保存 之 后 ， 可 
以 在 R 命令 行 中 用 下 面 的 命令 来 执行 文件 中 的 所 有 命令 : [ 34 | 


> source('mycode.R') 


假定 在 当前 工作 上 自 录 中 有 一 个 名 称 为 “mycode. R” “的 文本 文件 。 在 Windows 下 ， 改 变 当 前 
工作 目录 的 简单 方法 是 通过 “文件 ”菜单 中 的 “改变 工作 目录 ”选项 。 在 UNIX 操作 系统 中 ， 
可 以 分 别 用 函数 getwd() 和 setwd() 来 获取 当前 工作 目录 和 改变 当前 工作 目录 。 

在 交互 方式 下 应 用 R 的 命令 行 方式 时 ， 可 能 需要 保存 你 的 对 象 以 备 以 后 应 用 例如， 输入 
的 函数 ) 。 下 面 的 例子 在 名 称 为 mysession. RData 的 文件 中 保存 了 名 为 f 和 my. dataset 的 两 个 对 象 : 


> save(f,my.dataset, file='mysession.RData') 


以 后 ， 在 新 的 R 会 话 中 ， 可 以 使 用 下 面 的 命令 来 重新 读 人 这 些 对 象 ; 

> load ('mysession.RData') 

也 可 以 用 下 面 的 命令 来 保存 当前 R 工作 空间 中 的 所 有 对 象 ” 

> save. image() 

上 面 命令 在 当前 工作 目录 中 把 R 工作 空间 保存 为 名 为 “. RData” 的 文件 。 从 该 目录 启动 R 
时 ， 这 个 文件 将 自动 地 载 人 R 中 。 当 及 退出 时 ， 如 果 回 答 “ 是 ”， 也 会 达到 上 面相 同 的 效果 (S 
见 1.2.1 节 )。 

关于 R 的 参考 文献 . 

所 有 版 本 的 R 在 线 手 册 《R 简介 》 是 学 习 R 语言 的 极 好 资料 。R 网 站 的 “文档 ”部 分 的 
“贡献 文档 ”也 有 关于 及 不 同方 面 的 免费 书籍 。 


1.3 MySQL 简介 
本 节 简 单 介 绍 MYSQL 数据 库 。 在 本 书 的 案例 研究 中 不 一 定 要 应 用 MySQL。 然 而 ， 对 于 大 型 


GS， 这 里 的 文件 名 后 级 “. R” 不 是 强制 的 ， 你 可 以 用 其 他 后 统 名 。 
O MERAN, TUNRA ls( ) 来 列 出 当前 工作 空间 中 的 所 有 对 象 。 


26 ° 数据 挖掘 与 只 语言 


的 数据 挖掘 项 目 ， 应 用 像 MySQL 这 样 的 数据 库 是 必需 的 。 可 以 从 网 站 http: //www. mysql. com 免 
费 下 载 MySQL 数据库。 与 R 类 似 ，MySQL 适用 于 多 种 不 同 的 操作 系统 ， 例 如 Linux, Windows 
等 。 如 果 希 望 在 计算 机 上 安装 MySQL 数据 库 ， 应 该 首先 从 MySQL 网 站 下 载 它 ， 然 后 按照 安装 指 
南 进行 安装 。 另 外 ， 也 可 以 访问 安装 在 与 你 的 计算 机 联网 的 其 他 计算 机 上 的 MySQL 服务 器 。 

可 以 应 用 网 络 上 或 者 本 地 计算 机 上 的 客户 端 程序 来 访问 MySQL。 在 MySQL 网 站 上 ， 有 多 种 
不 同 的 MySQL 客户 端 程序 。MySQL 自 带 一 个 控制 台 型 的 客户 端 程序 ， 该 控制 台 型 客户 端 和 R 类 
似 ， 以 命令 行 方 式 工 作 。 另 外 ， 也 可 以 安装 并 应 用 图 形 界面 的 客户 端 程序 来 应 用 MySQL， 其 中 
之 一 是 MySQL Query Browser， 它 是 一 款 免 费 的 MySQL 客户 端 程序 ， 可 以 试 试 。 

如 果 应 用 控制 台 型 的 客户 端 程序 ， 那 么 可 以 在 操作 系统 的 命令 提示 符 后 用 以 下 命令 来 访问 
MySQL: 

$> mysql -u myuser -p 

Password: 不 站 本 站 站 本 站 本 

mysql> 

如 果 访 问 远程 的 MySQL 服务 器 ， 则 应 用 下 列 命令 : 


$> mysql -h myserver.xpto.pt -u myuser -p 
Password: 六 水 站 本 本 本 水 本 


mysql> 

这 里 假设 MySQL 服务 器 有 一 个 名 为 “myuser” 的 用 户 并 且 有 密码 保护 。 如 果 上 述 内 容 对 你 
而 言 很 陌生 ， 你 应 该 与 系统 管理 员 进行 交流 或 者 学 习 MySQL 安装 手册 ， 或 者 阅读 相关 书籍 〈 例 
如 ，DuBois，2000)。 

进入 MySQL 数据 库 后， 可 以 应 用 已 有 的 数据 库 或 者 创建 新 的 数据 库 。 下 面 说 明 如 何在 控制 
台 型 客户 端 用 命令 方式 来 创建 一 个 新 的 数据 库 : 


mysql> create database contacts; 
Query OK, 1 row affected (0.09 sec) 
可 以 通过 以 下 命令 来 应 用 这 个 新 建 的 数据 库 或 者 其 他 已 经 存在 的 数据 库 : 


mysql> use contacts; 


Database changed 


数据 库 由 一 系列 表 构 成 ， 这 些 表 包 含 相 关 条 目的 数据 。 创 建 表 的 方式 如 下 : 
mysql> create table people( 
-> id INT primary key, 
-> name CHAR(30), 
~> address CHAR(60)); 
Query OK, 1 row affected (0.09 sec) 
注意 符号 “ -> ”是 表示 继续 MySQL 命令 的 提示 符 。 
为 了 在 表 中 加 入 数据 ， 一 种 方法 是 手动 插 人 数据 ; 另 一 种 方法 是 用 MySQL 的 导入 命令 读 人 
外 部 文件 中 的 数据 ， 例 如 外 部 文本 文件 中 的 数据 。 
把 一 条 记录 插入 表 中 的 方法 如 下 : 
mysql> insert into people 
-> values(1,'John Smith','Strange Street, 34, Unknown City'); 


Query OK, 1 row affected (0.35 sec) 
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可 以 用 select 语句 列 出 表 中 的 记录 。 例 如 : 


mysql> select * from people; 


二 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 本 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| id | name | address | 
a 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| 1 | John Smith | Strange Street, 34, Unknown City | 
$2---4$----------- = 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.04 sec) 


mysql> select name, address from people; 


+ 一 ~ 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| name | address l 
+—----------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| John Smith | Strange Street, 34, Unknown City | 
+—----------—- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) 


mysql> select name from people where id >= 1 and id < 10; 


+------------ + 
36 
1 row in set (0.00 sec) 2 


当 完 成 MySQL 中 的 工作 之 后 ， 可 以 在 控制 台 型 客户 端 用 命令 “quit” 退 出 MySQL. 37 
关于 MySQL 的 参考 文献 
可 以 阅读 MySQL 所 带 的 免费 手册 来 了 解 更 多 有 关 MySQL 的 知识 。 这 个 手册 包含 了 从 安装 到 
MySQL 所 应 用 的 SQL 语言 技术 细节 的 所 有 内 容 。 另 外 ，DuBois (2000 年 ) 所 著 的 《MySQL》 一 
书 ， 也 是 学 习 DBMS 的 最 佳 参考 资料 ， 作 者 本 身 是 一 个 活跃 的 MySQL 开发 人 员 。 
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预测 海藻 数量 





本 案例 研究 将 介绍 一 些 数据 控 据 的 基本 任务 : 数据 预 处 理 、 探 索性 数据 分 析 和 预测 模型 的 
构建 。 对 于 第 一 个 案例 研究 ， 我 们 选择 了 一 个 就 数据 挖掘 标准 而 言 较 小 的 问题 。 这 个 问题 是 预测 
水 样 中 某 几 种 有 害 海藻 的 存在 频率 。 如 果 你 不 熟悉 R 语言 ， 并 且 没有 阅读 1.2 节 ， 那 么 学 习 本 章 
的 案例 时 可 能 需要 复习 1.2 节 。 


2.1 问题 描述 与 目标 


某 些 高 浓度 的 有 害 藻类 对 河流 生态 环境 的 强大 破坏 是 一 个 严重 的 问题 ， 它 们 不 仅 破坏 河流 
的 生物 ， 也 破坏 水 质 。 能 够 监测 并 在 早期 对 海藻 的 繁殖 进行 预测 对 提高 河流 质量 是 很 有 必要 的 。 

针对 这 一 问题 的 预测 目标 ， 在 大 约 一 年 的 时 间 内 ， 在 不 同时 间 内 收集 了 欧洲 多 条 不 同 河流 
的 水 样 。 对 于 每 个 水 样 ， 测 定 了 它们 的 不 同化 学 性 质 以 及 7 种 有 害 藻类 的 存在 频率 。 在 水 样 收集 
过 程 中 ， 也 记录 了 一 些 其 他 特性 ， 如 收集 的 季节 、 河 流 大 小 和 水 流 的 速度 。 

本 案例 研究 的 主要 动机 之 一 是 化 学 监测 价格 便宜 ， 并 且 易 于 自动 化 。 而 通过 分 析 生 物 样 品 
来 识别 水 中 的 藻类 要 涉及 显微镜 检验 ， 需 要 训练 有 素 的 工作 人 员 ， 因 此 既 昂 贵 又 缓慢 。 因 此 ， 构 
建 一 个 可 以 基于 化 学 性 质 来 准确 预测 藻类 的 模型 将 有 助 于 建立 监测 有 害 藻类 的 廉价 的 自动 化 
系统 。 

[39 | 本 案例 研究 的 另 一 个 目的 是 更 好 地 了 解 影响 藻类 频率 的 因素 。 也 就 是 说 ,我 们 要 了 和 解 藻类 
的 频率 和 水 样 的 某 些 化 学 性 质 以 及 其 他 特性 ( 如 季节 、 河 流 类 型 等 ) 是 如 何 相关 的 。 


2.2 数据 说 明 


本 案例 的 数据 来 自 于 ERUDIT “研究 网 络 ， 并 被 用 于 1999 年 的 COIL 国际 数据 分 析 竞 赛 。 可 
以 从 多 个 不 同 的 地 方 得 到 本 案例 的 数据 ， 例 如 UCT 机 器 学 习 数据 库 。 

本 案例 有 两 个 数据 集 ， 第 一 个 数据 集 有 200 个 水 样 。 更 精确 地 说 ， 该 数据 集 的 每 一 条 记录 是 
同一 条 河流 在 该 年 的 同一 个 季节 的 三 个 月 内 收集 的 水 样 的 平均 值 。 

每 条 记录 由 11 个 变量 构成 。 其 中 3 个 变量 是 名 义 变量 ， 它 们 分 别 描述 水 样 收集 的 季节 、 收 
集 样 品 的 河流 大 小 和 河水 速度 。 余 下 的 8 个 变量 是 所 观测 水 样 的 不 同化 学 参数 ， 即 

e 最 大 pH 值 

。 最 小 含 氧 量 (0,) 

。 平均 氢化 物 含量 (Cl) 

。 平均 硝酸 盐 含 量 (NO, ) 

。 FHAA E (NH; ) 


© http: //www. erudit. de/erudit/. 
© http; //archive. ics. uci. edu/ml/. 
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。 平均 正 磷酸 盐 含 量 (PO, ) 

。 平均 磷酸 盐 含量 (P0,) 

。 平均 叶绿素 含量 

与 这 些 参数 相关 的 是 7 种 不 同 有 害 藻类 在 相应 水 样 中 的 频率 数目 。 并 未 提供 所 观察 藻类 的 名 
称 的 有 关 信 息 。 

第 二 个 数据 集 由 140 个 额外 观测 值 构成 。 它 们 的 基本 结构 和 第 一 个 数据 集 一 样 ， 但 是 它 不 包 
含 7 种 藻类 的 频率 数目 。 这 些 额 外 的 观测 值 可 以 视 为 测试 集 。 本 案例 的 主要 目标 是 预测 140 个 水 
样 中 7 种 藻类 的 频率 。 这 意味 着 它 是 一 个 预测 型 数据 挖掘 任务 。 这 是 数据 挖掘 所 处 理 的 诸多 问题 
中 的 一 类 问题 。 在 这 种 问题 中 ， 任 务 是 建立 预测 模型 ， 并 预测 在 给 定 预 测 变 量 的 取 值 时 相应 的 目 
标 变 量 的 值 。 预 测 模型 也 可 能 会 说 明 哪 一 个 预测 变量 对 目标 变量 有 较 大 的 影响 ， 即 模型 可 能 提 
供 影响 目标 变量 因素 的 一 个 综合 描述 。 


2.3 ”数据 加 载 到 R 


我 们 考虑 两 种 把 数据 载 人 R 的 方法 : 1) 利用 本 书 提供 的 R 添加 包 ， 该 包 中 给 出 了 数据 框 形 
式 的 数据 ， 可 以 直接 应 用 ; 2) 访问 本 书 的 网 站 ， 下 载 相应 数据 的 文本 文件 ， 然 后 把 文件 读 人 到 
R 中 。 很 明显 ， 第 一 种 方式 更 实用 。 为 了 说 明 如 何 把 文本 文件 载 人 R 中 ， 我 们 同时 也 介绍 第 二 种 
方法 。 

如 果 应 用 第 一 种 简单 的 方法 ， 只 要 载 人 本 书 的 R 添加 包 ? ， 就 直接 有 了 一 个 名 为 algae 的 数 
据 框 。 这 个 数据 框 含 有 前 面 提 到 的 200 个 观测 值 : 


> library (DMwR) 
> head(algae) 


season size speed mxPH mn02 cl NO3 NH4 oP04 P04 Chla 
1 winter small medium 8.00 9.8 60.800 6.238 578.000 105.000 170.000 50.0 
2 spring small medium 8.35 8.0 57.750 1.288 370.000 428.750 558.750 1.3 
3 autumn small medium 8.10 11.4 40.020 5.330 346.667 125.667 187.057 15.6 
4 spring small medium 8.07 4.8 77.364 2.302 98.182 61.182 138.700 1.4 
5 autumn small medium 8.06 9.0 55.350 10.416 233.700 58.222 97.580 10.5 
6 winter small high 8.25 13.1 65.750 9.248 430.000 18.250 56.667 28.4 
ai a2 a3 a4 a5 a6 a7 


1 0.0 0.0 0.0 0.0 34.2 8.3 0.0 
2 1.4 7.6 4.81.9 6.7 0.0 2.1 
3 3.3 53.6 1.90.0 0.0 0.0 9.7 
4 3.1 41.0 18.90.0 1.4 0.01.4 
5 9.2 2.9 7.50.0 7.5 4.1 1.0 
6 15.1 14.6 1.40.0 22.5 12.6 2.9 


数据 框 可 以 看 做 一 种 有 列 名 称 的 和 矩阵 或 者 表格 ， 它 是 存储 R 数据 表 的 一 种 理想 的 数据 结构 。 
函数 head( ) 将 显示 数据 框 的 前 6 行 。 

另外 一 种 载 人 数据 的 方式 是 用 本 书 网 站 中 “Data” (数据 ) 部 分 的 文本 文件 。 在 “Training 
data”( 训练 数据 ) 链接 下 的 文件 “Analysis. xt” 中 包含 200 个 水 样 ， 而 在 “Test data” (测试 数 
H) 链接 下 的 文件 “Eval. txt” 中 包含 140 个 测试 样本 。 另 一 个 链接 下 的 文件 “Sols. kt” 包 含 
140 个 测试 样本 的 藻类 频率 。 最 后 这 个 文件 将 用 来 测试 预测 模型 的 性 能 ， 它 在 建立 模型 时 将 被 视 
为 未 知 的 。 这 些 文件 的 每 一 行 代 表 一 个 观测 值 。 在 训练 集 和 测试 集中 ， 每 一 行 的 变量 (如 2.2 节 
所 描述 ) 值 之 问 由 空格 来 分 隔 。 缺 失 值 由 字符 串 “XXXXXXX” 来 表示 。 


O ”由 于 该 添加 包 在 R 的 标准 安装 中 是 没有 的 ， 必 须 先 安装 它 才 能 使 用 。 关 于 添加 包 的 安装 ， 请 参见 1. 2. 1 节 。 
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我 们 需要 做 的 第 一 件 事 是 从 本 书 网 站 下 载 三 个 文件 ， 并 把 它们 存储 在 本 地 计算 机 硬盘 的 某 个 目 
录 下 (最 好 存储 在 当前 运行 R 的 目录 下 ， 可 以 在 R 命令 行 下 用 命令 getwd( ) 来 获取 该 目录 ) 。 

把 文件 下 载 到 一 个 本 地 计算 机 目录 后 ， 就 可 以 把 文本 文件 “Analysis. txt” 中 的 数据 加 载 到 R 
中 〈 训 练 数据 是 指 用 来 建立 预测 模型 的 数据 ) 。 可 以 输入 以 下 命令 把 文件 中 的 数据 读 和 人 到 有 中” 


> algae <- read.table(‘Analysis.txt', 

+ header=F, 

+ dec="".', 

+ col.names=c ('season' ,'size','speed','mxPH' ,'mn02','Cl', 

+ 'NOS' ,'NH4' ,'oP04' ,"P04','Chla','at','a2','a3','ad', 

+ 'a5','a6','a7'), 

+ na.strings=c ('XXXXXXX')) 

BR header = 下 表示 要 读 的 文件 的 第 -一行 不 包括 变量 名 。dec = ”. ”指出 数值 使 用 ”. + 
符 分 隔 小 数位 。 这 两 个 参数 设置 可 以 省 略 ， 因 为 这 里 使 用 了 它们 的 默认 值 。col names 给 正在 读 
取 的 变量 提供 一 个 名 称 向 量 。 最 后 ，na. string 表示 该 字符 串 将 被 解释 为 未 知 值 。 这 些 值 在 R 内 
部 用 NA 来 表示 ， 如 1.2.3 节 中 所 示 。 

R 有 多 个 读 取 文 本 文件 中 数据 的 函数 。 可 以 输入 “? read. table” 来 获得 进一步 的 信息 和 其 
他 相关 函数 。 此 外 ，R 有 一 本 名 为 《R Data Import/Export》 的 手册 ， 该 手册 描述 了 R 从 其 他 应 用 

程序 读 取 数据 的 不 同方 法 。 

上 面 指 令 的 结果 是 一 个 数据 框 。 数 据 框 的 每 一 行 代表 数据 集 的 一 个 观测 值 。 例 如 ， 可 以 用 指 
Ay algae [1: 5,]° 来 获得 文件 的 前 5 个 观测 值 。 在 1. 2.7 节 我 们 讲 了 在 R 中 获取 像 数 据 框 这 样 的 
R 对 象 的 特定 元 素 的 方法 。 


2.4 数据 可 视 化 和 摘要 


鉴于 没有 该 问题 领域 足够 的 信息 ， 首 先 了 解 一 些 数据 的 统计 特性 是 一 种 较 好 的 方式 ， 它 方 
便 我 们 更 好 地 理解 问题 。 即 使 对 问题 有 了 充分 的 了 解 ， 从 下 面 的 探索 性 数据 分 析 着 手 进行 分 析 
也 是 一 个 不 错 的 方法 。 

获取 数据 统计 特性 的 一 个 方法 是 获取 数据 的 如 下 描述 性 统计 摘要 。 


> summary (algae) 


season size speed mxPH mn02 
autumn:40 large :45 high :84 Min. 75.600 Min. : 1.500 
spring:53 medium:84 low :33 ist Qu.:7.700 ist Qu.: 7.725 
summer:45 small :71 medium:83 Median :8.060 Median : 9.800 


winter :62 Mean 38.012 Mean : 9.118 
3rd Qu.:8.400 3rd Qu.:10.800 
Max. :9.700 Max. 213.400 
NA's 1.000 NA's 2.000 
Cl NO3 NH4 oP04 
Min. : 0.222 Min. : 0.050 Min. : 5.00 Min. ; 1.00 


ist Qu.: 10.981 ist Qu.: 1.296 ist Qu.: 38.33 ist Qu.: 15.70 
Median : 32.730 Median : 2.675 Median : 103.17 Median : 40.15 
Mean : 43.636 Mean : 3.282 Mean : 501.30 Mean : 73.59 
3rd Qu.: 57.824 3rd Qu.: 4.446 3rd Qu.: 226.95 3rd Qu.: 99.33 


O ”这 里 假设 数据 文件 位 于 R 的 当前 工作 目录 中 ; 和 否则， 可 以 应 用 函数 setwd( ) 来 改变 当前 工作 目录 。 在 Windows 
操作 系统 中 ， 可 以 点 击 “ 文 件 ” 菜 单 下 的 “改变 工作 目录 ”选项 来 改变 R 的 当前 工作 目录 。 
S 这 里 也 可 以 用 前 面 介绍 的 函数 head (algae) 得 到 相同 的 结果 。 
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Max. :391.500 Max. 745.650 Max. 724064.00 Max. : 564.60 
NA's : 10.000 NA's : 2.000 NA's 2.00 NA's 2.00 
P04 Chla al a2 
Min. 1.00 Min. 0.200 Min. : 0.00 Min. : 0.000 
dst Qu.: 41.38 ist Qu.: 2.000 ist Qu.: 1.50 ist Qu.: 0.000 
Median :103.29 Median : 5.475 Median : 6.95 Median : 3.000 
Mean :137.88 Mean : 13.971 Mean :16.92 Mean : 7.458 
3rd Qu.:213.75 3rd Qu.: 18.308 3rd Qu.:24.80 3rd Qu.:11.375 
Max. “:771.60 Max. :110.456 Max. :89.80 Max. :72.600 

NA's : 2.00 NA's : 12.000 
a3 a4 a5 a6 
Min : 0.000 Min. : 0.000 Min. : 0.000 Min. : 0.000 
1st Qu.: 0.000 1st Qu.: 0.000 ist Qu.: 0.000 ist Qu.: 0.000 
Median : 1.550 Median : 0.000 Median : 1.900 Median : 0.000 
Mean 4.309 Mean : 1.992 Mean : 5.064 Mean : 5.964 
3rd Qu.: 4.925 3rd Qu.: 2.400 3rd Qu.: 7.500 3rd Qu.: 6.925 
Max. :42.800 Max. 744.600 Max. 244.400 Max. :77.600 
a7 
Min. : 0.000 
ist Qu.: 0.000 
Median : 1.000 
Mean : 2.495 
3rd Qu.: 2.400 
Max. 31.600 


这 个 简单 的 指令 立即 给 出 了 数据 的 统计 特性 概览 ”。 对 于 名 义 变量 (CR 中 用 因子 来 表示 ) ， 
它 给 出 每 个 可 能 取 值 的 频数 ?。 例 如， 从 结果 中 可 知 冬季 采集 的 水 样 比 其 他 季节 更 多 。 对 于 数值 
变量 ，R 为 我 们 提供 了 均值 、 中 位 数 、 四 分 位 数 及 极 值 等 一 系列 的 统计 信息 。 这 些 统计 信息 提供 
了 变量 值 分 布 的 初步 信息 (后 面 还 会 有 这 方面 的 分 析 ) 。 在 变量 有 缺失 值 的 情况 下 ， 字 符 串 NA 
后 面 的 数字 即 为 缺失 值 的 个 数 。 通 过 观察 中 位 数 和 均值 之 间 的 差异 以 及 四 分 位 距 ? ， 我 们 可 以 了 
解数 据 分 布 的 偏 度 和 分 散 情 况 。 另 外 ， 大 部 分 情况 下 ， 这 些 信 息 可 以 更 好 地 用 图 形 来 表示 出 来 。 
让 我 们 看 一 个 例子 。 

> hist(algae$mxPH, prob = T) 


该 指令 将 绘制 变量 mxPH 的 直方 图 。 其 结果 如 图 2-1 所 示 。 设 置 参数 prob =T， 我 们 可 以 得 
到 每 个 取 值 区 间 ” 的 概率 ， 如 果 该 参数 设置 为 FALSE 或 者 忽略 该 参数 ， 它 将 给 出 频数 。 

图 2-1 告诉 我 们 ， 变 量 mxPH 的 分 布 非常 接近 正 态 分 布 ， 它 的 值 大 部 分 聚集 在 该 变量 的 均值 
周围 。 我 们 通过 使 用 Q - Q 图 来 检验 该 变量 是 否 为 正 态 分 布 。 在 R 的 添加 包 car (Fox, 2009) 中 
的 函数 qq. plot( ) 可 以 绘制 Q-Q 图 。 上 例 的 Q -Q 图 如 图 2-2 的 右 图 所 示 ， 左 图 是 一 个 略微 复 
杂 版 本 的 直方 图 。 获 取 图 2-2 的 命令 如 下 : 


应 用 添加 包 Hmisc 中 的 函数 describe() 也 可 以 得 到 类 似 的 结果 (Harell Jr, 2009), 

事实 上 ， 如 果 有 太 多 的 取 值 ， 则 只 显示 出 现 频次 最 高 的 几 个 取 值 。 

如 果 把 变量 的 取 值 按照 从 小 到 大 的 顺序 排列 ，25% 的 取 值 小 于 第 一 个 四 分 位 数 ， 而 75% 的 数值 小 于 第 三 个 四 分 
位 数 ， 因 此 在 第 一 个 四 分 位 数 和 第 三 个 四 分 位 数 之 间 的 数值 个 数 为 50% 。 四 分 位 距 是 第 三 个 四 分 位 数 和 第 一 个 
四 分 位 数 的 差 值 ， 它 可 以 衡量 变量 与 其 中 心 值 的 偏离 程度 ， 该 值 越 大 说 明 偏离 越 大 。 

© 直方 图 的 条 形 的 面积 之 和 应 该 为 1 (而 不 是 某 些 人 认为 的 条 形 的 高 度 ) 。 


® 0C 
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algae$mxPH 
图 2-1 变量 mxPH 的 直方 图 


> library(car) 
> par(mfrow=c(1,2)) 
> hist (algae$mxPH, prob=T, xlab="', 
+ main='Histogram of maximum pH value', ylim=0:1) 
> lines (density (algae$mxPH, na. rm=T)) 
> rug(jitter (algae$mxPH) ) 
> qq. plot (algae$mxPH,main='Normal QQ plot of maximum pH') 
> par (mfrow=c(1,1)) 
RA R 添加 包 car 后 ” ， 调 用 函数 par() 设置 R 图 形 系统 的 多 个 参数 。 这 里 把 图 形 输出 窗口 
设置 为 1 行 2 列 的 区 域 ， 这 样 可 以 在 同一 幅 图 形 中 得 到 两 个 并 列 的 图 形 。 然 后 绘制 第 一 幅 图 形 ， 
43 | 它 是 变量 mxPH 的 直方 图 ， 这 里 它 设置 马 轴 标题 为 空 ， 然 后 改变 图 形 的 标题 ， 提 供 合理 的 了 轴 的 
范围 。 之 后 的 指令 绘制 平滑 版 本 的 直方 图 (变量 分 布 的 核 密度 估计 ” ) ， 而 下 一 个 命令 在 七 轴 附 
近 绘 制 变量 的 实际 值 ， 从 而 容易 识别 离 群 点 。 例 如 ， 我 们 可 以 观察 到 有 两 个 值 显 著 低 于 所 有 其 
他 值 。 这 种 数据 检查 是 非常 重要 的 ， 因 为 它 可 以 确定 数据 样本 中 可 能 出 现 的 错误 ， 甚 至 帮助 定位 
那些 奇怪 的 错误 值 或 者 在 后 续 分 析 中 需要 剔除 的 奇怪 值 。 图 2-2 的 右 图 是 用 函数 qq. plot( ) 得 到 
的 Q -Q 图 ， 它 绘制 变量 值 和 正 态 分 布 的 理论 分 位 数 (RATE) 的 散 点 图 。 同 时 ， 它 给 出 正 态 
分 布 的 95% 置信 区 间 的 带 状 图 (虚线 ) 。 从 图 2-2 右 图 可 知 ， 变 量 有 几 个 小 的 值 明显 在 95% 置信 
区 间 之 外 ， 它 们 不 服从 正 态 分 布 。 
注意 ， 上 全 大 量 应 用 了 函数 复合 ， 一 个 函数 的 结果 调用 另 一 个 函数 。 当 不 理解 这 些 函 数 复合 
时 ， 可 以 每 次 调用 一 个 函数 ， 分 别 理解 它 的 输出 。 
下 面 的 指令 给 出 了 另 一 个 数据 检查 的 例子 ， 它 用 来 检查 变量 oPO4: 





45 





O ”这 里 应 用 函数 library( ) 来 载 人 添加 包 时 要 注意 ， 该 添加 包 必 须 预先 安装 在 你 的 计算 机 中 。 否 则 ，R 会 报错 ， 这 
时 ， 需 要 用 1.2.1 节 中 给 出 的 方法 来 先 安装 该 添加 包 。 

日 ”在 许多 函数 中 ,设置 参数 “na. rm =T” 是 说 明 在 函数 的 计算 中 不 考虑 NA 值 。 在 多 个 函数 中 ， 这 种 设置 是 必需 
的 ， 因 为 它 不 是 这 些 函数 的 默认 设置 。 否 则 ， 将 会 出 现 错误 。 

© 事实 上 ,这 里 有 两 个 是 数 调用 。 函 数 rug( ) 执行 绘图 ， 而 函数 jiter( ) 对 要 绘制 的 原始 值 略微 进行 随机 排列 ， 这 
就 避免 了 两 个 值 相等 的 可 能 性 ， 因 而 避免 了 两 个 标记 重合 在 一 起 而 导致 可 视 化 检查 时 一 些 值 被 “掩盖 ”。 
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Histogram of maximum pH value Normal QQ piot of maximum pH 
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图 2-2 变量 MxPH 的 直方 图 的 “丰富 ”版 本 (£E) URQ-QOA (AR) 


> boxplot (algae$oP04, ylab = “Orthophosphate (oP04)") 

> rug(jitter(algae$oP04), side = 2) 

> abline(h = mean(algae$oP04, na.rm = T), lty = 2) 

第 一 条 指令 绘制 变量 oP04 的 箱 图 。 箱 图 能 快速 提供 变量 分 布 的 一 些 关键 属性 的 搞 要 。 箱 图 
框 的 边界 代表 变量 的 第 一 个 四 分 位 数 和 第 三 个 四 分 位 数 ， 而 框 内 的 水 平 线 是 变量 的 中 位 数 。 设 7 
是 变量 的 四 分 位 距 ， 箱 图 上 方 的 小 横 线 是 小 于 或 等 于 第 三 个 四 分 位 数 加 1.5 xr 的 最 大 的 观测 值 ， 
而 箱 图 下 方 的 小 横 线 是 大 于 或 等 于 第 一 个 四 分 位 数 减 去 1.5 xr 的 最 小 的 观测 值 。 箱 图 上 方 小 横 
线 上 面 或 者 下 方 小 横 线 下 面 的 小 圆圈 表示 与 其 他 值 相 比 特别 大 或 者 特别 小 的 值 ， 通 常 认 为 是 离 
群 值 。 这 意味 着 箱 图 给 出 大 量 的 信息 ， 它 不 仅 给 出 了 变量 的 中 心 趋势 ， 也 给 出 了 变量 的 发 散 情况 
和 离 群 值 。 

第 二 条 指令 在 前 面 已 经 描述 过 了 (唯一 的 区 别 是 数据 绘制 的 位 置 不 同 ) ， 而 第 三 条 指令 使 用 
abline( ) 在 变量 的 均值 位 置 绘制 一 条 水 平 线 ? ,均值 由 函数 mean( ) 计算 。 将 均值 线 和 箱 图 内 的 
分 位 数 线 进行 比较 ， 就 可 以 知道 变量 的 多 个 离 群 值 使 得 作为 变量 中 心 〈 即 变量 的 大 部 分 取 值 ) 
的 均值 产生 了 扭曲 。 

图 2-3 的 分 析 说 明 ， 变 量 oP04 的 分 布 集中 在 较 小 的 观测 值 周 围 ， 因 此 分 布 为 正 偏 。 大 部 分 
水 样 的 oP04 值 比较 低 , 但 也 有 几 个 水 样 的 观测 值 较 高 ， 甚 至 特别 高 。 

有 时 ， 当 有 离 群 值 时 ， 需 要 确定 那些 有 离 群 值 的 观测 。 这 里 给 出 两 种 方法 。 一 种 方法 是 图 形 
方法 。 如 果 绘 制 变量 NH4 的 值 ， 将 会 注意 到 一 个 特别 大 的 值 。 我 们 可 以 用 下 列 方式 识别 特大 值 
相应 的 水 样 : 


> plot (algae$NH4, xlab = "") 

> abline(h = mean(algae$NH4, na.rm = T), ity = 1) 

> abline(h = mean(algae$NH4, na.rm = T) + sd(algae$NH4, na.rm = T), 
+ lty = 2) 

> abline(h = median(algae$NH4, na.rm = T), lty = 3) 

> identify (algae$NH4) 


第 一 条 指令 绘制 变量 的 所 有 值 ， 调 用 函数 abline( ) 绘制 三 条 有 用 的 直线 : 第 一 条 为 均值 ， 
第 二 条 为 均值 加 1 个 标准 差 , 第 三 条 为 中 位 数 。 对 于 离 群 值 的 识别 ， 尽 管 这 三 条 线 不 是 必需 的 ， 





OQ ”用 参数 lty =2 来 设置 线 型 为 虚线 。 
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但 是 它们 能 提供 变量 的 有 用 信息 。 最 后 一 条 指令 是 交互 式 的 ， 它 允许 用 户 单 击 图 形 中 的 点 ”。 对 
于 每 一 个 单 击 的 点 ，R 将 写 下 该 点 在 alga 数据 框 中 的 行 号 。 用 户 可 以 右 击 来 结束 交互 。 


Orthophesphate (oPO4) 
300 





图 2-3 变量 oP04 箱 图 的 “丰富 ”版 本 


如 果 需 要 检查 algae 数据 框 中 对 应 于 图 形 中 的 离 群 值 的 观测 记录 ， 最 好 的 方式 是 执行 如 下 
命令 : 

> plot (algae$NH4, xlab = "") 

> clicked.lines <- identify (algae$NH4) 

> algae[clicked.lines, J 

正如 你 所 猜测 的 那样 ， 函 数 identify() 给 出 对 应 于 图 形 中 单 击 的 点 的 行 号 ， 利 用 这 点 对 
algae 数据 框 进行 索引 ， 可 以 获取 这 些 观测 值 的 所 有 信息 。 

也 可 以 不 用 图 形 方式 进行 以 上 的 检查 ， 如 下 所 示 : 
> algae[algae$NH4 > 19000, J 


该 指令 给 出 了 另 一 种 索引 数据 框 的 方式 ， 即 应 用 逻辑 表达 式 来 选 定 行 《更 多 的 例子 请 参见 
1.2.7 节 )。 这 条 指令 的 输出 结果 可 能 看 起 来 有 点 奇怪 。 原 因 是 变量 NH 的 有 些 观测 值 为 NA 值 ， 
这 时 R 不 知道 比较 的 结果 ， 因 此 给 出 了 NA。 为 了 避免 这 种 情况 ， 可 以 应 用 指令 algae[ lis. na 
(algae$ NH4 ) & algae $ NH4 > 19000,]. JAH A% is. na( ) 将 产生 一 个 布尔 值 (TRUE 或 者 
FALSE) 向 量 。 当 NH4 的 值 为 NA 时 ， 向 量 的 相应 值 为 TRUE ， 这 个 向 量 元 素 的 个 数 和 数据 框 
algae 的 行 数 相同 。 表 达 式 !is. na (algae$NH4) 返回 一 个 布尔 值 向 量 ， 因 为 “!” 是 逻辑 否 运算 ， 
所 以 对 应 数据 框 中 变量 NH4 的 值 为 已 知 的 行 的 位 置 的 值 为 TRUE。 总之， 这 种 索引 方式 将 给 出 那 
些 数据 框 中 变量 NH4 取 值 已 知 并 且 大 于 19 000 的 行 。 

下 面 给 出 几 种 其 他 类 型 的 数据 检查 的 例子 。 这 些 例子 应 用 R 的 添加 包 lattice (Sarkar, 
2010), lattice 包 提 供 了 大 量 优秀 的 图 形 工 具 ， 这 些 图 形 工 具 实 现 了 Trellis 图 形 (Cleveland, 
1993) 的 思想 。 

假设 需要 研究 海藻 变量 cl 的 值 的 分 布 。 可 以 应 用 上 面 讨论 的 任何 方法 。 然 而 ， 如 果 这 里 需 
要 研究 分 布 如 何 依赖 于 其 他 变量 ， 就 需要 新 的 工具 。 

条 件 绘图 是 依赖 于 某 个 特定 因子 的 图 形 表示 。 因 子 是 一 个 取 值 为 有 限 集合 的 名 义 变量 。 例 
如 ， 对 于 变量 size 的 不 同 取 值 ， 可 以 绘制 变量 ol 的 一 组 箱 图 (如 图 2-4 所 示 ) 。 每 个 箱 图 是 对 应 
于 变量 size 的 某 个 特定 值 的 水 样子 集 。 通 过 这 些 箱 图 可 以 研究 名 义 变量 size 如 何 影响 变量 cl 值 


O ”鼠标 单 击 的 相对 于 点 的 位 置 将 决定 R 把 行 号 写 在 哪 一 边 。 例 如 ， 如 果 在 点 的 右边 单 击 ， 行 号 将 写 在 点 的 右边 。 


第 2 章 预测 海藻 数量 ”35 


的 分 布 。 绘 制图 2-4 中 箱 图 的 命令 如 下 : 

> library(lattice) 

> bwplot(size ~ al, data=algae, ylab='River Size',xlab='Algal A1') 

上 面 的 第 一 条 指令 载 人 lattice 包 。 第 二 条 指令 绘制 这 些 图 lattice 版 本 的 箱 图 ， 这 条 指令 可 以 
读 做 : 对 变量 size 的 每 个 值 绘制 cl 。 其 他 参数 的 意义 显而易见 。 

从 图 2-4 可 知 ， 在 规模 较 小 的 河流 中 ， 海 营 al 的 频率 较 高 ， 这 是 很 有 用 的 信息 。 
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Algal A1 
图 2-4 海藻 变量 ol 的 条 件 箱 图 


这 种 箱 图 的 另外 一 个 类 型 是 分 位 箱 图 ， 它 可 以 给 出 所 绘制 变量 的 更 多 信息 。R 添加 包 Hmise 
可 以 绘制 分 位 箱 图 。 下 面 绘制 上 面 例子 中 al 变量 的 条 件 分 位 箱 图 : 


> library (Hmisc) 

> bwplot (size ~ al, data=algae,panel=panel.bpplot, 

+ probs=seq(.01,.49,by=.01), datadensity=TRUE, 

+ ylab='River Size',xlab='Algal A1') 

上 面 命令 的 输出 结果 如 图 2-5 所 示 。 图 2-5 中 的 点 代表 不 同 大 小 的 河流 中 海藻 频数 的 均值 ， 
而 图 中 的 竖 线 分 别 代表 变量 的 第 一 个 分 位 数 、 中 位 数 和 第 三 个 分 位 数 。 图 2-5 中 的 小 竖 线 代表 数 
据 的 真实 取 值 ， 这 些 值 的 分 布 信息 则 由 分 位 数 图 来 体现 。 分 位 数 箱 图 提供 的 信息 要 多 于 图 2-4 所 
示 的 传统 箱 图 的 信息 。 例 如 ， 我 们 可 以 确认 上 面 的 观测 结论 : 小 型 的 河流 有 更 高 频率 的 海藻 ， 但 
我 们 也 观察 到 小 型 河流 的 海藻 频率 的 分 布 比 其 他 类 型 河流 的 海藻 频率 的 分 布 分 散 。 

这 种 类 型 的 条 件 绘图 不 局 限于 名 义 变量 ， 也 不 局 限于 单个 因子 。 只 要 先 把 连续 变量 “离散 
化 " ， 也 同样 可 以 进行 条 件 绘图 。 下 面 给 出 一 个 两 个 因子 的 条 件 绘图 的 例子 。 考 虑 变量 o3 在 给 
定 变 量 season 和 变量 mn02 下 的 条 件 绘图 ， 变 量 mn02 是 一 个 连续 变量 ， 绘 图 代码 如 下 所 示 : 

> > min02 <- equal.count (na.omit (algae$mn02), 

number=4, overlap=1/5) 

> > stripplot (season ~ a3/minO2, 

+ data=algae[!is.na(algae$mn02) ,]) 

以 上 代码 得 到 的 图 形 输出 如 图 2-6 所 示 。 

上 面 代码 的 第 一 行 是 调用 函数 equal. count( ) 对 连续 变量 mn02 离散 化 ， 把 该 变量 转换 为 因 
子 类 型 。 参 数 number 设置 需要 的 区 间 个 数 ， 参 数 overlap 设置 两 个 区 间 之 间 的 靠近 边界 的 重合 
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(这 意味 着 某 些 观测 值 将 被 分 配 到 相 邻 的 区 间 中 ) 。 每 个 区 间 的 观测 值 的 个 数 相等 。 注 意 ， 变 量 
algae$mnO2 中 含有 NA 值 ， 所 以 上 面 的 指令 中 没有 直接 应 用 该 变量 ， 否 则 会 导致 其 后 的 绘图 函 
BUN PAB na. omit( ) 可 以 用 来 剔除 向 量 中 的 任何 NA 值 * 。 
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图 2-6 海藻 变量 03 的 条 件 箱 图 


第 二 行 调用 绘图 函数 stripplot( ) ， 该 函数 是 lattice 包 中 的 一 个 绘图 函数 ， 它 根据 另 一 个 变量 

(这 里 是 season) 把 变量 的 实际 值 绘制 到 不 同 的 图 形 中 。 然 后 对 变量 mn02 的 每 个 不 同 的 区 间 绘 
制 不 同 的 图 形 。 这 些 区 间 按 照 从 左 到 右 、 从 下 到 上 的 顺序 来 排列 。 即 与 左下 方 的 图 形 相对 应 的 是 
51 | 较 小 的 mn02 值 ” 。 变 量 mn02 中 的 NA 值 也 会 对 图 形 的 绘制 产生 影响 。 不 能 像 绘制 图 2-4 那样 直 


”在 后 面 的 2.5 节 将 给 出 另 一 种 更 好 的 解决 方案 。 
日 ”可 以 打印 所 创建 的 变量 离散 化 版 本 来 查看 创建 的 区 间 的 实际 值 。 
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接应 用 参数 data = algae， 而 应 该 先 蓟 除 水 样 中 变量 mn02 含有 NA 值 的 行 。 

数据 摘要 和 可 视 化 的 参考 文献 

大 多 数 标准 的 统计 教科 书 都 含有 数据 汇总 的 内 容 。 一 本 较 简 单 的 、 很 好 的 统计 书籍 是 
Chatfield (1983) 的 《Statistics for Technology》。 该 书 的 例子 简单 并 很 能 说 明 问题 。 另 外 一 本 好 的 
参考 书籍 是 Dalgaard (2002) 的 《Introductry Statistics with R》。 对 于 数据 可 视 化 ， 必 需 的 一 本 参 
考 书 是 Cleveland (1993) 的 《Visualizing Data》， 这 时 一 本 物 有 所 值 的 优秀 书籍 。 另 外 一 本 后 续 
的 更 正式 的 书籍 是 《The Elements of Graphing Data) ( Cleveland ，1995 ) 。 一 本 更 新 的 优秀 书籍 是 
Chen 等 (2008) 编著 的 《Data Visualization》。 最 后 ，Murrell (2006) 的 《R Graphics》 则 更 是 一 
本 全 部 有 关 R 软件 绘图 的 书籍 。 


2.5 数据 缺失 
在 许多 水 样 中 ， 一 些 变量 含有 缺失 值 。 这 种 情形 在 现实 问题 中 非常 普遍 ， 这 会 导致 一 些 不 能 
处 理 缺 失 值 的 分 析 方法 无 法 应 用 。 a2 


当 我 们 处 理 含 有 缺失 值 的 数据 时 ， 可 以 运用 以 下 几 种 最 常见 的 策略 : 

。 将 含有 缺失 值 的 案例 噜 除 。 

。 根据 变量 之 间 的 相关 关系 填补 缺失 值 。 

。 根据 案例 之 间 的 相似 性 填补 缺失 值 。 

© 使 用 能 够 处 理 缺 失 值 数据 的 工具 。 
最 后 一 种 方式 是 最 严格 的 ， 因 为 它 限定 了 我 们 可 以 使 用 的 工具 。 然 而 ， 当 对 这 些 可 以 处 理 缺 失 值 
的 数据 挖掘 工具 有 信心 时 ， 它 们 可 能 是 一 个 好 的 选择 。 在 下 面 的 章节 中 ， 我 们 将 通过 举例 来 演示 
如 何在 R 中 实现 上 述 处 理 缺 失 值 的 方法 。 如 果 你 决定 试 一 试 本 书 中 给 出 的 代码 ， 你 需要 了 解 它 
们 不 是 互相 补充 的 。 由 于 每 节 都 用 不 同 的 方法 来 处 理 这 些 数据 ， 这 意味 着 当 你 选择 用 其 他 方式 
来 处 理 这 些 缺 失 值 时 ， 需 要 重新 读 取 含有 所 有 缺失 值 的 原始 数据 。 重 新 读 取 数 据 的 代码 如 下 : 


> library (DMwR) 
> data(algae) 


2.5.1 RAMS BIR 

剔除 含有 缺失 数据 的 记录 非常 容易 实现 ， 尤 其 是 当 这 些 记录 所 占 的 比例 在 可 用 数据 集中 非 
常 小 的 时 候 ， 这 个 选择 就 比较 合理 。 

在 剔除 某 些 变量 中 至 少 含 有 一 个 缺失 数据 的 所 有 观测 值 时 ， 最 好 先 检查 观测 值 ， 或 者 至 少 
得 到 这 些 观测 值 的 个 数 ， 例 如 : 

> algae[!complete. cases (algae) ,] 


> nrow(algae[! complete .cases (algae) ,]) 
[1] 16 
函数 complete. cases() 产生 一 个 布尔 值 向 量 ， 该 向 量 的 元 素 个 数 与 algae 数据 框 中 的 行 数 相 
同 ， 如 果 数 据 框 的 相应 行 中 不 含 NA 值 〈( 即 为 一 个 完整 的 观测 值 ) ， 函 数 返 回 值 就 是 TURE, Bt 
面 提 到 过 “1!” 运 算 符 ， 它 是 取 逻 辑 否 ， 因 此 上 述 指令 显示 了 含有 缺失 值 的 水 样 记录 。 
为 了 从 数据 框 中 剔除 这 16 个 样本 ， 我 们 可 以 简单 地 输入 : 


> algae <- na.omit (algae) 


即使 我 们 决定 不 使 用 剔除 所 有 包含 缺失 值 记 录 的 极端 方法 ， 我 们 也 可 以 剔除 某 些 观测 值 。 因 为 
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这 些 样本 的 缺失 值 太 多 ， 所 以 它们 几乎 是 无 用 的 样本 ， 如 果 采 用 复杂 的 方法 来 填补 缺失 值 ， 就 会 导 
致 较 大 偏差 。 需 要 注意 的 是 ， 如 果 执 行 了 前 面 的 命令 ， 你 需要 重新 读 取 数 据 ， 因 为 这 个 指令 已 经 
剔除 了 所 有 缺失 数据 ， 所 以 接 下 来 的 命令 就 没有 意义 ! 观察 这 个 样本 中 的 数据 ， 我 们 可 以 看 到 第 
62 条 和 第 199 条 记录 中 的 11 个 解释 变量 有 6 个 是 缺失 值 。 在 这 种 情况 下 ， 最 好 是 剔除 它们 : 

> algae <- algae[-c(62, 199), ] 


在 有 些 问题 中 ， 由 于 大 量 记 录 中 含有 缺失 值 ， 用 上 面 的 观察 方法 来 检查 数据 的 缺失 值 是 不 
可 行 的 ， 所 以 需要 找 出 缺失 值 较 多 的 样本 所 在 的 行 。 下 面 的 代码 可 以 找 出 海藻 数据 集中 每 行 数 
据 的 缺失 值 个 数 : 


> apply(algae, 1, function(x) sum(is.na(x))) 


函数 apply() 属于 R 中 功能 非常 强大 的 一 类 函数 。 这 类 函数 又 称 为 元 函数 ， 它 们 可 以 在 某 
些 条 件 下 对 对 象 应 用 其 他 函数 。 对 函数 apply() 而 言 ， 它 可 以 把 任何 其 他 函数 应 用 到 一 个 多 维 对 
象 的 各 个 维度 上 。 使 用 函数 apply() 时 ， 它 把 一 个 函数 应 用 到 数据 框 * 的 每 一 行 。 这 个 被 应 用 的 
函数 在 apply( ) 函数 的 第 三 个 参数 中 给 出 ， 对 数据 框 的 每 一 行 都 分 别 调用 该 函数 。 在 这 个 案例 中 
我 们 使 用 一 个 临时 函数 。 它 只 在 调用 apply() pa A FETE. Sh, PRM apply( ) 的 第 三 个 参数 
也 可 以 是 一 个 “正常 ”函数 的 函数 名 。 临 时 函数 的 功能 是 计算 对 象 x 中 NA 的 数量 。 在 R 中 人 逻辑 
fi TURE 等 于 数值 |， 人 逻辑 值 FALSE 等 于 数值 0， 这 意味 着 当 加 一 个 布尔 值 向 量 时 ， 得 到 向 量 中 
取 值 为 TURE 的 元 素 的 个 数 。 

根据 以 上 代码 ， 可 以 编写 一 个 程序 找 出 algae 中 含有 给 定数 目 缺 失 值 的 行 。 在 本 书 提供 的 添 
加 包 中 有 这 个 函数 。 可 以 如 下 应 用 该 函数 : 

> data(algae) 

> manyNAs (algae, 0.2) 


[1] 62 199 

只 有 在 前 面 操作 中 剔除 了 缺失 值 较 多 的 几 行 数据 后 才 需要 调用 函数 data()o Mk manyNAs( ) 
的 功能 是 找 出 缺失 值 个 数 大 于 列 数 20% 的 行 。 在 第 二 个 参数 中 可 以 设置 一 个 精确 的 列 数 作为 界 
限 。 因 此 ， 用 下 面 的 代码 就 无 须知 道 含 有 缺失 值 较 多 的 行 的 具体 数量 : 

> algae <- algae[-manyNAs(algae), J 

在 这 个 案例 中 我 们 应 用 了 manyNAs(), ， 函 数 第 二 个 参数 的 默认 值 为 0.2。 
2.5.2 用 最 高 频率 值 来 填补 缺失 值 

填补 含有 缺失 值 记录 的 另 一 个 方法 是 尝试 找到 这 些 缺 失 值 最 可 能 的 值 。 同 样 ， 这 里 有 多 种 
策略 可 供 选 择 ， 不 同 策略 对 逼近 程度 和 算法 复杂 度 的 权衡 不 同 。 

填补 缺失 数据 最 简便 和 快捷 的 方法 是 使 用 一 些 代 表 中 心 趋势 的 值 。 代 表 中 心 趋势 的 值 反 映 
了 变量 分 布 的 最 常见 值 ， 因 此 中 心 趋势 值 是 最 自然 的 选择 。 有 多 个 代表 数据 中 心 趋势 的 指标 ， 例 
如 平均 值 、 中 位 数 、 众 数 等 。 最 合适 的 选择 由 变量 的 分 布 决定 。 对 于 接近 正 态 的 分 布 来 说 ， 所 有 
的 观测 值 都 较 好 地 聚集 在 平均 值 周围 ， 平 均值 数 就 是 最 佳 选择 。 然 而 ， 对 于 偏 态 分 布 ， 或 者 有 离 
群 值 的 变量 来 说 ， 选 择 平均 值 就 不 好 。 偏 态 分 布 的 大 部 分 值 都 聚集 在 变量 分 布 的 一 侧 ， 因 此 平均 
值 不 能 作为 最 常见 值 的 代表 。 另 一 方面 ， 离 群 值 ( 极 值 ) 的 存在 会 扭曲 平均 值 ， 这 就 导致 了 平 
均值 不 具有 代表 性 的 问题 。 因 此 ， 在 对 变量 分 布 进行 检查 之 前 选择 平均 值 作为 中 心 趋势 的 代表 


日 第 二 个 参数 中 的 “1” 表 示 第 一 个 参数 中 的 对 象 的 第 一 个 维度 ， 即 数据 框 的 行 数据 。 
© 向 量 c(1.2,，1.3, 04, 0.6，3，15) 的 均值 是 3. 583。 


第 2 章 预测 海藻 数量 ”39 


是 不 明智 的 ， 例 如 ， 某 些 R 的 绘图 工具 ( 见 图 2-2) 。 对 偏 态 分 布 或 者 有 离 群 值 的 分 布 而 言 ， 中 
位 数 是 更 好 的 代表 数据 中 心 趋势 的 指标 。 
比如 ， 样 本 algae[48,] 中 的 变量 mxPH 有 缺失 值 。 由 于 该 变量 分 布 近似 正 态 分 布 (WA 2-2), 
我 们 可 以 选用 平均 值 来 填补 这 个 “ 洞 ” ， 计 算 方法 如 下 : 
> algae[48, "mxPH"] <- mean(algae$mxPH, na.rm = T) 


这 里 ， 函 数 mean( ) 计算 数值 向 量 的 平均 值 ， 参 数 na rm =T 使 计算 时 忽略 缺失 数据 ” 。 

大 多 数 时 候 采用 一 次 填补 一 列 中 的 所 有 缺失 值 而 不 是 像 上 面 那样 一 行 一 行 地 和 逐个 填补 。 以 
变量 Chla 为 例 ， 这 个 变量 在 第 12 行 上 有 缺失 值 。 另 外 ， 这 也 是 平均 值 不 能 代表 大 多 数 变 量 值 的 
一 种 情况 。 事 实 上 ，Chla 的 分 布 偏 向 于 较 低 的 数值 ， 并 且 它 有 儿 个 极端 值 ， 这 些 都 使 得 平均 值 
(13.971) 不 能 代表 大 多 数 的 变量 值 。 因 此 ， 我 们 使 用 中 位 数 来 填补 这 一 类 的 缺失 值 : 

> algae[is.na(algae$Chla), "Chla"] <- median(algae$Chla, na.rm = T) 


本 书 插件 包 中 提供 的 函数 centralimputation( ) 可 以 用 数据 的 中 心 趋势 值 来 填补 数据 集 的 所 有 
缺失 值 。 对 数值 型 变量 ， 该 函数 用 中 位 数 ， 对 名 义 变 量 ， 它 采用 众 数 。 该 函数 的 应 用 如 下 : 

> data(algae) 

> algae <- algae[-manyNAs(algae), ] 

> algae <- central Imputation (algae) 

由 于 缺失 值 的 存在 会 导致 某 些 方法 不 能 使 用 ， 所 以 使 用 上 面 的 方法 填补 缺失 值 通常 也 认为 
不 是 很 好 的 方法 。 虽 然 上 述 的 简单 方法 速度 快 ， 特 别 适用 于 大 数据 集 ， 但 是 它 可 能 导致 较 大 的 数 
据 偏差 ， 影 响 后 期 的 数据 分 析 工 作 。 然 而 ， 使 用 无 偏方 法 来 寻找 最 佳 数据 填补 值 复杂 ， 对 于 大 型 
数据 挖掘 问题 可 能 并 不 适用 。 
2.5.3 通过 变量 的 相关 关系 来 填补 缺失 值 

另 一 种 获取 缺失 值 较 少 偏差 估计 值 的 方法 是 探寻 变量 之 间 的 相关 关系 。 比 如 ， 通 过 变量 值 
之 间 的 相关 关系 ， 能 够 发 现 某 变量 与 mxPH 高 度 相 关 。 这 可 以 使 我 们 得 到 含有 缺失 值 的 第 48 条 
样本 的 更 可 能 的 填补 值 。 这 比 之 前 使 用 平均 值 的 方法 将 更 胜 一 筹 。 

应 用 如 下 命令 来 得 到 变量 间 的 相关 值 : 


> cor(algae[, 4:18], use = "complete.obs") 


函数 cor( ) 的 功能 是 产生 变量 之 间 的 相关 值 矩 阵 (因为 前 3 个 变量 是 名 义 变量 ， 所 以 计算 相 
关 值 时 不 考虑 它们 ) 。 设 定 参 数 use = "complete. obs" 时 ，R 在 计算 相关 值 时 忽略 含有 NA 的 记录 。 
相关 值 在 1 (或 -1) 周围 表示 相应 的 两 个 变量 之 间 有 强 正 (AA) 线性 相关 关系 。 然 后 其 他 R 
函数 可 以 得 到 变量 间 线 性 相关 的 近似 函数 形式 ， 它 可 以 让 我 们 通过 一 个 变量 的 值 计 算出 另 一 个 
变量 的 值 。 

函数 cor( ) 的 输出 结果 并 不 是 很 清晰 ， 但 可 以 通过 函数 symnum( ) 来 改善 结果 的 输出 形式 ， 
例如 : 

> symnum(cor(algae[, 4:18],use="complete.obs")) 

mP mO Cl NO NH o P Ch ai a2 a3 a4 a5 a6 a7 
mxPH 1 
mn02 1 


cl 1 
NO3 1 


日 ”因为 原始 数据 在 该 列 中 有 缺失 值 ， 如 果 不 设 定 参数 na rm =T， 得 到 的 结果 将 是 NA。 
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a4 。 。 1 

a5 1 

a6 © ， . 1 

a7 1 

attr(, legend") 

[1] 0 '' 0.3 '.' 0.6 ',' 0.8 '+' 0.9 '*' 0.95 'B' 1 

这 种 用 符号 表示 相关 值 的 方法 更 为 清晰 ， 特 别 是 对 于 大 的 相关 和 矩阵 。 

在 本 案例 的 数据 中 ， 大 多 数 变 量 之 间 是 不 相关 的 。 然 而 ， 有 两 个 例外 : 变量 NH4 和 N03 之 
间 ， 变 量 PO4 和 oPO4 之 间 。 后 两 个 变量 之 间 的 相关 值 很 高 (大 于 0.9)。 变 量 NH4 和 NO3 之 间 
的 相关 性 不 是 特别 明显 (为 0.72) ， 因 此 根据 它们 来 确定 缺失 数据 是 危险 的 。 此 外 ， 因 为 样本 62 
和 样本 199 有 太 多 的 变量 含有 缺失 值 ， 所 以 如 果 剔 除 它 们 ， 样 本 中 的 变量 NH4 和 NO3 BRAK 
失 值 了 。 至 于 变量 Po4 和 oP04 ， 它 们 之 间 相 关 性 5 可 以 帮助 填补 这 两 个 变量 的 缺失 值 。 为 了 达 

到 这 个 目标 ， 我 们 需要 找到 这 两 个 变量 之 间 的 线性 相关 关系 ， 方 法 如 下 : 


> data(algae) 
> algae <- algae[-manyNAs(algae), J 
> lm(P04 ~ oP04, data = algae) 


Call: 
lm(formula = P04 ~ oP04, data = algae) 


Coefficients: 
(Intercept) oP04 
42.897 1.293 


函数 Im( ) 可 以 用 来 获取 形 如 了 = +B,x, +… +B,x, 的 线性 模型 。2. 6 节 将 具体 讲述 该 函 
数 。 线 性 模型 是 : PO4 =42. 897 + 1. 293 x oP04。 如 果 这 两 个 变量 不 是 同时 有 缺失 值 ， 那 么 可 以 
通过 这 个 公式 计算 这 些 变量 的 缺失 值 。 

在 剔除 样本 62 和 样本 199 后 ， 还 剩 下 一 个 样本 〈 样 本 28) 在 变量 P04 上 有 缺失 值 ， 可 以 简 
单 地 使 用 上 面 的 线性 关系 计算 缺失 值 的 填补 值 : 

> algae[28, "P04"] <- 42.897 + 1.293 * algae[28, "oP04"] 


然而 ， 为 了 说 明 这 个 方法 ， 我 们 假设 变量 Po4 有 多 个 缺失 值 。 如 何 使 用 上 述 的 线性 关系 计 
算 所 有 的 缺失 值 呢 ? 最 好 的 方法 是 构造 一 个 函数 ， 它 可 以 根据 给 定 的 oP04 的 值 计算 P04 的 值 ， 
然后 对 所 有 缺失 值 应 用 这 个 函数 。 

> data(algae) 

> algae <- algae[~manyNAs(algae), ] 

> f111P04 <- function(oP) { 

+ if (is.na(oP)) 

+ return (NA) 





日 ”根据 领域 专家 的 解释 ， 总 的 磷酸 盐 值 (PO4) 包含 正 磷酸 盐 值 (P04). 
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else return(42.897 + 1.293 * oP) 


+ 
+ 
> EE EE iy. "P04"] <- sapply (algae [is.na(algae$P04), 
+ "oP04"], fillP04) 
上 面 代码 创建 了 一 个 叫做 fllPO4( ) 的 函数 ， 该 函数 有 一 个 参数 来 接收 变量 oP04 的 值 。 给 
定 oP04 的 值 ， 这 个 函数 将 根据 得 到 的 线性 关系 (尝试 “filP04(6.5)” 语 句 ) 计算 变量 P04 的 
值 。 然 后 ， 将 这 个 函数 应 用 到 变量 P04 有 缺失 值 的 所 有 样本 。 这 个 过 程 可 以 通过 另 一 个 元 函数 
sapply() 来 实现 。 函 数 sapply() 的 第 一 个 参数 是 一 个 向 量 ， 第 二 个 参数 为 一 个 函数 。 结 果 是 另 
一 个 向 量 ， 该 向 量 和 第 一 个 参数 有 相同 的 长 度 ， 元 素 为 第 二 个 参数 中 的 函数 应 用 到 第 一 个 参数 
中 向 量 的 每 一 个 元 素 后 得 到 的 结果 。 这 意味 着 sapply( ) 的 结果 将 是 填补 变量 PO4 缺失 值 的 向 量 。 
最 后 一 条 赋值 语句 是 使 用 函数 复合 的 另 一 个 例子 。 事 实 上 ， 它 等 价 于 先 用 函数 is. na( ) 的 结果 对 
数据 框 的 行进 行 索引 ， 然 后 对 选择 结果 的 每 一 个 元 素 通 过 函数 sapply( ) 应 用 函数 filPO4( ) 。 
对 线性 关系 的 研究 使 我 们 能 够 填充 一 些 新 的 缺失 值 。 然 而 ， 还 有 几 个 观测 值 含有 缺失 值 。 可 
以 试 着 探索 案例 数据 中 含有 缺失 值 的 变量 和 名 义 变 量 之 间 的 关系 。 这 可 以 通过 应 用 R 添加 包 
lattice 中 的 函数 来 绘制 条 件 直方 图 来 进行 。 如 图 2-7 所 示 ， 绘 图 的 代码 如 下 : 


> histogram(“mxPH | season, data = algae) 
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图 2-7 在 变量 season 条 件 下 的 变量 mxPH 的 直方 图 


上 面 代码 绘制 在 不 同 季节 变量 mxPH 的 直方 图 。 每 个 直方 图 对 应 于 某 个 季节 的 观测 值 数据 。 
注意 ， 图 2-7 中 的 季节 顺序 不 是 按照 自然 的 时 间 顺 序 ， 可 以 转换 数据 框 中 因子 季节 标签 的 顺序 ， 
这 样 可 以 使 图 形 中 的 季节 值 为 自然 时 间 顺 序 。 代 码 如 下 : 


> algae$season <- factor(algae$season, levels = c("spring", 
+ "summer", "autumn", "winter")) 


默认 情况 下 ， 当 把 名 义 变量 的 值 转换 为 因子 时 ， 参 数 levels 假定 因子 的 水 平 值 按照 字母 顺序 
排列 。 在 本 案例 中 ， 需 要 因子 水 平 的 不 同 顺序 〈 即 季节 的 时 间 顺 序 ) ， 所 以 在 因子 函数 中 需要 指 
定 因子 水 平 的 排序 方式 。 试 着 执行 以 上 命令 ， 得 到 新 输出 的 直方 图 后 ， 看 看 有 什么 不 同 。 

注意 ,图 2-7 中 的 直方 图 十 分 类 似 ， 因 此 收集 样本 时 该 年 的 季节 对 变量 mxPH 的 值 没有 显著 
影响 。 如 果 对 河流 的 大 小 (变量 size) 进行 上 面 类 似 的 分 析 ， 执 行 指令 histogram ( ~ mxPH | 


42 - 数据 挖掘 与 R 语言 


size, data = algae) ， 那 么 从 得 到 的 直方 图 中 可 知 较 小 的 河流 有 较 小 的 mxPH 值 。 对 这 种 相关 性 的 
研究 可 以 扩展 到 多 个 名 义 变量 ， 例 如 : 


> histogram(“mxPH | size * speed, data = algae) 


它 说 明 河 流 大 小 和 速度 的 所 有 组 合 的 mxPH 值 的 变化 。 需 要 指出 的 是 ， 它 没有 说 明 速 度 较 低 
且 规 模 较 小 河流 的 相关 信息 ?。 仅 有 一 个 样本 具备 这 些 性 质 ， 即 第 48 条 样本 ， 而 变量 mxPH 在 该 
样本 上 的 值 恰恰 缺失 ! 

通过 另 一 种 方式 也 可 以 获得 类 似 的 信息 ， 但 这 次 应 用 变量 的 具体 取 值 : 


> stripplot (size ~ mxPH | speed, data = algae, jitter = T) 


上 面 指令 的 结果 如 图 2-8 ax, BR jitter =T 说 明 对 了 轴 的 变量 值 进行 小 范围 的 随机 排列 ， 
这 样 可 以 避免 相同 值 之 间 的 相互 重 又 而 导致 失去 具有 某 些 特定 值 的 观察 值 集中 度 的 信息 。 

这 种 类 型 的 分 析 可 以 应 用 到 其 他 含有 缺失 值 的 变量 中 。 而 且 ， 这 种 分 析 是 一 个 繁琐 的 过 程 ， 
它们 有 太 多 的 变量 组 合 需要 分 析 。 不 过 ， 这 种 方法 可 以 应 用 到 有 少量 名 义 变量 的 较 小 数据 集 的 
分 析 中 。 
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图 2-8 词 流 大 小 和 速度 引起 的 mxPH 的 变化 


2.5.4 ”通过 探索 案例 之 间 的 相似 性 来 填补 缺失 值 

不 同 于 探索 数据 集 列 (变量 ) 之 间 的 相关 性 ， 本 节 尝 试 使 用 行 (观察 值 ) 之 间 的 相似 性 来 
填补 缺失 值 。 我 们 可 以 使 用 这 种 方法 来 填补 除去 那 两 个 含有 太 多 NA 值 的 样本 外 的 其 他 缺失 数 

据 。 再 次 载 人 本 案例 数据 来 覆盖 本 节 之 前 部 分 的 代码 〈 假 设 你 已 经 运行 了 前 面 的 代码 ) 。 

> data(algae) 

> algae <- algae[-~manyNAs (algae), J 

本 节 所 描述 的 方法 假设 如 果 两 个 水 样 是 相似 的 ， 其 中 一 个 水 样 在 某 些 变量 上 有 缺失 值 ， 那 
么 该 缺失 值 很 可 能 与 另 一 个 水 样 的 值 是 相似 的 。 为 了 使 用 这 种 直观 的 方法 ， 首 先 定 义 相似 性 概 
念 。 相 似 性 经 常 由 描述 观察 值 的 多 元 度量 空间 的 变量 所 定义 。 在 文献 中 有 许多 度量 相似 性 的 指 
标 ， 常 用 的 是 欧式 距离 。 这 个 距离 可 以 非 正式 地 定义 为 任何 两 个 案例 的 观测 值 之 差 的 平方 和 。 计 


O 前 面 给 出 了 变量 mxPH 的 均值 来 填充 它 的 缺失 值 的 命令 。 如 果 执 行 了 该 命令 ， 就 不 是 这 里 的 情形 了 。 
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算 公式 如 下 : 
ary) = |Y a (2-1) 
下 面 要 描述 的 方法 将 使 用 这 种 度量 来 寻找 与 任何 含有 缺失 值 的 案例 最 相似 的 10 个 水 样 ， 并 
用 它们 来 填补 缺失 值 。 我 们 考虑 两 种 应 用 这 些 值 的 方法 。 第 一 种 方法 简单 地 计算 这 10 个 最 相近 
的 案例 的 中 位 数 并 用 这 个 中 位 数 来 填补 缺失 值 。 如 果 缺 失 值 是 名 义 变量 (本 案例 的 algae 数据 不 
存在 这 种 情况 ) ， 我 们 采用 这 10 个 最 相似 数据 中 出 现 次 数 最 多 的 值 ( 即 众 数 ) 。 第 二 种 方法 采用 
这 些 最 相似 数据 的 加 权 均 值 。 权 重 的 大 小 随 着 距 待 填补 缺失 值 的 个 案 的 距离 增 大 而 减 小 。 这 里 
用 高 斯 核 函 数 从 距离 获得 权重 。 如 果 相 邻 个 案 距 待 填补 缺失 值 的 个 案 的 距离 为 4， 则 它 的 值 在 加 
权 平 均 中 的 权重 为 : 

w(d) = e” (2-2) 
LEBAT UAA BR PHRA knnImputation( ) 来 实现 。 这 个 函数 用 一 个 欧式 距离 的 
变种 来 找到 距 任何 个 案 最 近 的 个 邻居 。 这 个 变种 的 欧式 距离 可 以 应 用 于 同时 含有 名 义 变 量 和 数 
值 变 量 的 数据 集中 。 计 算 公 式 如 下 : 

d(x,y) = 
其 中 65.() 是 变量 i 的 两 个 值 之 间 的 距离 ， 即 
1 当主 是 名 义 变 量 且 vw Av, 时 
6( 0) = 0 LikARREH vo, =v, 时 (2-4) 
(x, -»,)? 当 i 是 数值 变量 时 
在 计算 距离 时 ， 一般 要 对 数值 变量 进行 标准 化 ， 即 





aC) (2-3) 


x, -xX 





J: = (2-5) 


Or 
下 面 说 明 如 何 使 用 knnImputation( ) 函数 。 
> algae <- knnImputation(algae, k = 10) 


如 果 用 中 位 数 来 填补 缺失 值 ， 可 以 使 用 如 下 代码 


> algae <- knnImputation(algae, k = 10, meth = "median") 


总 之 ， 通 过 这 些 简 单 的 操作 ， 数 据 集中 不 再 含有 NA 值 (缺失 值 )， 为 使 用 R 的 其 他 函数 进 
行 分 析 做 好 充分 的 准备 工作 。 

当 决 定 用 前 面 介绍 的 哪 种 方法 来 填补 缺失 值 时 ， 大 多 数 时 候 应 该 根据 所 分 析 领 域 的 知识 来 
确定 。 根 据 个 案 之 间 的 相似 性 来 填补 缺失 值 看 起 来 更 合理 ， 但 这 种 方法 也 存在 其 他 问题 ， 例 如 可 
能 存在 不 相关 的 变量 扭曲 相似 性 ， 甚 至 造成 大 型 数据 集 的 计算 特别 复杂 等 问题 。 另 外 ， 对 于 这 些 
大 数据 集 问题 ， 可 以 通过 随机 抽取 样本 的 方法 来 计算 它们 之 间 的 相似 性 。 

处 理 缺 失 值 的 参考 文献 

Pyle (1999) 的 《Data Preparation for Data Mining》 一 书 有 关于 数据 挖掘 的 数据 准备 的 所 有 事 
项 的 大 量 信 息 ， 其 中 就 包括 处 理 缺 失 值 的 内 容 。Weiss 和 Indurkhya (1999) 的 《Predictive Data 
Mining) 一 书 中 有 通用 的 数据 准备 ， 特 别 是 缺失 数据 的 很 好 内 容 。 

Hong (1997) 以 及 Wilson 和 Martinez (1997) 的 文章 是 有 关 不 同类 型 的 变量 间距 离 衡 量 很 好 
的 参考 。 更 进一步 的 参考 文献 可 以 在 Torgo (1999a) 的 论文 中 找到 。 


2.6 获取 预测 模型 
本 案例 的 主要 研究 目的 是 预测 140 个 水 样 中 7 种 海藻 的 出 现 频率 。 假 设 海藻 频率 是 数值 型 数 
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据 ， 因 此 可 以 考虑 进行 回归 分 析 ” 。 简 单 地 说 ， 预 测 任务 是 建立 一 个 模型 来 找到 一 个 数值 变量 和 
一 组 解释 变量 的 关系 。 这 个 模型 既 可 以 根据 未 来 解释 变量 的 值 来 预测 目标 变量 ， 也 可 以 帮助 更 
好 地 理解 问题 中 各 个 变量 之 间 的 相互 联系 。 

本 节 将 研究 适用 于 预测 海藻 的 两 种 不 同 的 模型 : 多 元 线性 回归 模型 和 回归 树 模 型 。 这 里 主 
要 基于 本 书 中 的 问题 进行 示例 性 的 选择 模型 ， 而 非 基于 严格 的 模型 选择 步骤 。 不 过 ， 这 两 种 模型 
是 应 用 于 回归 问题 的 较 好 模型 ， 因 为 它们 对 晕 近 的 回归 函数 的 形式 有 完全 不 同 的 假设 ， 两 类 模 
型 都 易于 解释 ， 而 且 可 以 在 任何 计算 机 上 非常 快速 地 运行 。 但 这 并 不 意味 着 在 进行 数据 挖掘 时 
不 能 尝试 别 的 模型 ， 然 后 用 一 些 严格 的 模型 选择 方法 (参见 2.7 节 ) 来 选择 其 中 的 一 个 或 者 多 
个 用 于 最 后 预测 140 个 测试 数据 。 

这 两 个 模型 以 不 同 的 方式 解决 缺失 值 问 题 。R 中 的 线性 回归 不 能 使 用 有 缺失 值 的 数据 集 ， 而 
回归 树 模型 可 以 很 自然 地 处 理 这 些 带 有 缺失 值 的 数据 。 因 此 ， 在 建立 模型 之 前 ， 使 用 不 同 的 方法 
来 进行 数据 准备 工作 。 对 线性 回归 模型 ， 我 们 运用 2. 5 节 中 描述 的 方法 进行 数据 预 处 理 ， 然 后 应 
用 线性 回归 模型 。 在 回归 树 模型 中 ， 我 们 将 直接 应 用 原始 的 200 MERO. 

在 下 面 的 分 析 中 ， 假 定 140 个 测试 水 样 的 目标 变量 的 真实 值 是 未 知 的 。 因 为 之 前 提 到 ， 本 书 
网 站 中 包括 了 预测 问题 的 答案 ， 这 些 答 案 给 出 了 我 们 最 终 模型 的 结果 以 供 读者 参考 。 

2. 6.1 多 元 线性 回归 

多 元 线性 回归 模型 是 最 常用 的 统计 数据 分 析 方 法 ， 该 模型 给 出 了 一 个 有 关 目 标 变量 与 一 组 
解释 变量 关系 的 线性 函数 。 这 个 线性 函数 是 形 如 B, x 互 这 样 的 项 的 和 ， 这 里 .是 预测 变量 ,Bp 
是 一 个 常数 。 

正如 之 前 提 到 的 ， 在 多 元 线性 回归 模型 中 没有 处 理 缺失 值 的 方法 。 因 此 ， 这 里 将 应 用 根据 训 
练 集 数 据 个 案 的 相似 性 (参见 2. 5.4 节 ) 方法 来 填补 缺失 值 。 要 注意 的 是 ， 在 使 用 这 种 填补 方 
法 之 前 ， 首 先 移 除 第 62 条 和 第 199 条 水 样 记录 ， 因 为 在 这 两 条 记录 的 11 个 预测 变量 中 有 6 个 是 
有 缺失 值 的 。 以 下 代码 获取 一 个 不 含有 缺失 值 的 数据 框 ， 

> data(algae) 

> algae <- algae[-manyNAs (algae), J 

> clean.algae <- knnImputation(algae, k = 10) 

在 运行 上 面 的 代码 后 ， 得 到 的 数据 框 clean. alga 将 不 含有 缺失 值 。 

接 下 来 ， 将 建立 一 个 用 于 预测 海藻 频率 的 线性 回归 模型 : 


> lm.al <- Im(al ~ ., data = clean.algaef[, 1:12]) 


函数 Im() 建立 一 个 线性 回归 模型 ， 其 中 的 第 一 个 参数 给 出 了 模型 的 函数 形式 8$。 在 这 个 例 
子 中 ， 函 数 的 形式 是 用 数据 中 的 其 他 所 有 变量 来 预测 变量 cl ， 第 一 个 参数 中 的 点 子 “. ”代表 数 
据 框 中 的 所 有 除 al 外 的 变量 。 如 果 需 要 用 预测 变量 mxPH 和 NH 来 预测 变量 a] ， 就 要 定义 模型 
为 “al ~ mxPH + NH4”。 还 有 许多 其 他 定义 模型 的 方式 ， 这 都 称 为 R 公式 ， 后 边 用 到 时 将 进行 介 
绍 。 参 数 data 是 用 来 设 定 建 模 所 用 的 数据 集 ®。 
函数 Im( ) 的 结果 是 一 个 含有 线性 模型 信息 的 对 象 。 可 以 通过 下 列 代码 获取 更 多 线性 模型 的 
AA: . 


O ”实际 上 ， 由 于 我 们 要 预测 每 种 水 样 的 7 种 频率 值 ， 所 以 我 们 可 以 把 这 个 问题 分 成 7 种 不 同 的 线性 回归 。 
外 ”实际 上 ， 由 于 缺失 值 太 多 ， 我 们 只 需要 移 除 两 个 缺失 值 。 

© 其 实 ，R 中 用 于 建立 模型 的 大 部 分 函数 都 是 如 此 。 
© 我们 已 经 指出 了 11 种 解释 变量 加 上 表示 海藻 al 列 。 


第 2 章 预测 海藻 数量 。 45 


> summary (lm.a1) 


Call: 
lm(formula = ai ~ ., data = clean.algae[, 1:12]) 


Residuals: 
Min 1Q Median 3Q Max 
-37.679 -11.893 -2.567 7.410 62.190 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 42.942055 24.010879 1.788 0.07537 . 
seasonspring 3.726978 4.137741 0.901 0.36892 
seasonsummer 0.747597 4.020711 0.186 0.85270 
seasonwinter 3.692955 3.865391 0.955 0.34065 
sizemedium 3.263728 3.802051 0.858 0.39179 
sizesmall 9.682140 4.179971 2.316 0.02166 * 


speedlow 3.922084 4.706315 0.833 0.40573 
speedmedium 0.246764 3.241874 0.076 0.93941 
mxPH -3.589118 2.703528 -1.328 0.18598 
mn02 1.052636 0.705018 1.493 0.13715 
cl -0.040172 0.033661 -1.193 0.23426 
N03 -1.511235 0.551339 -2.741 0.00674 ** 
NH4 0.001634 0.001003 1.628 0.10516 
oP04 -0.005435 0.039884 -0.136 0.89177 
P04 -0.052241 0.030755 -1.699 0.09109 . 
Chla -0.088022 0.079998 -1.100 0.27265 


Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'0.1 '' 2 


Residual standard error: 17.65 on 182 degrees of freedom 
Multiple R-squared: 0.3731, Adjusted R-squared: 0.3215 
F-statistic: 7.223 on 15 and 182 DF, p-value: 2.444e-12 
在 解释 函数 summary() 应 用 到 线性 模型 对 象 所 得 到 的 信息 之 前 ， 先 介绍 R 如 何 处 理 3 个 名 
义 变量 。 当 像 上 面 一 样 进行 模型 构建 时 ，R 会 生成 一 组 的 辅助 变量 S ， 即 对 每 一 个 有 个 水 平 的 
因子 变量 ，R 会 生成 ~1 个 辅助 变量 。 这 些 辅 助 变 量 的 值 为 0 或 者 1。 当 辅助 变量 的 值 为 1， 表 
明 该 因子 值 出 现 ， 同 时 表明 所 有 其 他 辅助 变量 的 值 为 0。 如 果 所 有 这 上 -1 个 辅助 变量 取 值 都 为 
0， 则 表明 因子 变量 的 取 值 为 第 个 剩余 的 值 。 在 以 上 的 汇总 结果 中 ， 可 以 看 到 R 为 因子 变量 [65] 
season 生成 了 3 个 辅助 变量 (seasonspring, seasonsummer 和 seasonwinter) 。 如 果 某 个 水 样 的 season 
变量 的 取 值 为 “auumn”， 则 所 有 3 个 辅助 变量 的 值 将 全 部 为 零 。 
对 得 到 的 线性 模型 对 象 应 用 函数 summary( ) ， 将 给 出 所 建立 模型 的 一 些 诊断 信息 。 首 先是 有 
关 线 性 模型 中 数据 拟 合 的 残 差 。 残 差 应 该 是 均值 为 0 并 且 为 正 态 分 布 。 ( 显然 残 差 最 好 尽 可 能 
地 小 !) 
对 于 每 个 多 元 线性 回归 方程 的 系数 (变量 ) ，R 显示 它 的 估计 值 和 标准 误差 (这 些 系 数 变化 
程度 的 估计 )。 为 了 检验 这 些 系数 的 重要 性 ， 可 以 进行 这 些 系数 为 0 的 假设 检验 ， 即 H: B =0。 
通常 使 用 :检验 来 验证 这 些 假设 。R 计算 ! 值 ， 该 值 定义 为 估计 系数 值 与 其 标准 误差 的 比 ， 即 外。 


F. 


R 将 显示 与 系数 相关 联 的 一 列 ( Pr( > |: | ) ) 表示 系数 为 0 这 一 假设 被 拒绝 的 概率 。 因 此 ， 该 





o 有 时 也 称 为 虚拟 变量 。 
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值 为 0.0001 表明 有 99. 99% 的 置信 度 认 为 这 个 系数 并 非 为 0。 对 于 每 个 测试 ，R 都 给 出 一 个 标志 
来 表示 相对 应 的 测试 置信 度 水 平 。 总 之 ， 仅 对 于 这 些 在 前 面 有 标志 的 系数 ， 我 们 至 少 有 90% 的 
置信 度 来 拒绝 系数 为 0 这 一 假设 。 

另 一 个 由 R 输出 的 模型 诊断 信息 是 尼 (或 者 多 元 RRE 玉 ) 。 尼 表明 模型 与 数据 的 吻合 
度 ， 即 模型 所 能 解释 的 数据 变 差 的 比例 。R 越 近 于 1 (几乎 100% 地 解释 模型 数据 的 变 差 ) 就 说 
明 模 型 拟 合 得 越 好 ; RE 越 小 ， 说 明 模 型 拟 合 得 越 差 。 调 整 系数 则 更 严格 ， 它 考虑 回归 模型 中 参数 
的 数量 。 

最 后 ， 我 们 还 可 以 检验 任何 解释 变量 与 目标 变量 没有 依赖 关系 这 一 原 假设 ， 即 H: B =b =... 
B.。=0。 可 以 通过 把 R 给 出 的 下 统计 值 与 一 个 临界 值 进行 比较 来 进行 检验 。R 提供 一 个 拒绝 原 假 
设 的 置信 和 度 水 平 。 因 此 p 值 为 0. 0001 表示 有 99.99% 的 置信 和 度 确定 原 假设 是 错误 的 。 通 常 ， 如 果 
一 个 模型 不 能 通过 这 个 检验 即 得 到 的 p 值 被 认为 太 大 ,例如 大 于 0.1) ， 则 单个 系数 的 上 检验 没 
有 意义 。 

有 些 诊断 信息 也 可 以 通过 绘制 线性 模型 来 进行 检验 。 实 际 上 ， 可 以 用 一 个 类 似 plot( lm. al ) 
的 命令 来 得 到 一 系列 的 线性 模型 图 ， 它 们 有 助 于 了 解 模型 的 性 能 。 其 中 的 一 个 图 形 绘制 拟 合 的 
目标 变量 值 和 模型 残 差 的 散 点 图 。 误 差 相 对 较 大 时 ，R 通常 在 该 散 点 图 中 添加 该 误差 相应 的 行 

(66 ] 数 ， 这 样 就 可 以 方便 地 检查 这 些 误差 较 大 的 记录 。R 给 出 的 另外 一 个 图 形 是 误差 的 正 态 Q -Q 
图 ， 通 过 它 可 以 检查 误差 是 否 符合 应 有 的 正 态 分 布 。 

该 模型 解释 的 方差 比例 还 不 是 很 理想 〈 大 约 32% ) 。 还 可 以 拒绝 目标 变量 不 依赖 于 预测 变量 
的 假设 (F 检验 的 p 值 很 小 ) 。 检 查 某 些 系数 的 显著 性 ， 可 能 会 质疑 有 些 变量 是 否 应 该 进入 模型 
中 。 有 多 种 方法 可 以 用 来 精简 回归 模型 。 本 节 将 介绍 向 后 消 元 法 。 

CAH Pa anova( ) 来 精简 线性 模型 。 当 将 anova( ) 应 用 到 简单 线性 模型 时 ， 这 个 函数 所 
供 一 个 模型 拟 合 的 方差 序 贯 分 析 。 也 就 是 说 ， 随 着 公式 中 项 数 的 增加 ， 模 型 的 残 差 平方 和 减少 。 
对 前 面 建立 的 模型 进行 方差 分 析 ， 结 果 如 下 。 


> anova(l1m.ai) 


Analysis of Variance Table 


Response: al 
Df Sum Sq Mean Sq F value Pr(>F) 
season 3 85 28.2 0.0905 0.9651944 


size 2 11401 5700.7 18.3088 5.69e-08 *+* 
speed 2 3934 1967.2 6.3179 0.0022244 ** 
mxPH 1 1329 1328.8 4.2677 0.0402613 * 
mn02 1 2287 2286.8 7.3444 0.0073705 ** 
cl 1 4304 4304.3 13.8239 0.0002671 *** 
NO3 1 3418 3418.5 10.9789 0.0011118 ** 
NH4 1 404 403.6 1.2963 0.2563847 
oP04 1 4788 4788.0 15.3774 0.0001246 *** 
P04 1 1406 1405.6 4.5142 0.0349635 * 
Chla 1 377 377.0 1.2107 0.2726544 
Residuals 182 56668 311.4 


Signif. codes: 0 '*#*' 0.001 '*#' 0.01 '*' 0.05 '.' 0.1 '' 1 
上 面 结果 表明 变量 season 对 减少 模型 拟 合 误差 的 贡献 最 小 。 下 面 将 它 从 模型 中 剔除 





O 在 理想 情况 下 ， 所 有 的 误差 将 在 图 上 显示 为 直线 。 
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> lm2.a1 <- update(lm.al, . ~ . - season) 
函数 update( ) 用 于 对 已 有 的 线性 模型 进行 微小 的 调整 。 在 上 面 的 代码 中 ， 应 用 函数 update( ) 
从 模型 lm. al 中 移 除 变量 season 以 得 到 一 个 新 的 模型 。 新 模型 的 汇总 信息 如 下 : 


> summary(1m2.a1) 


Call: 
lm(formula = al ~ size + speed + mxPH + mn02 + Cl + NO3 + NH4 + 
oP04 + P04 + Chla, data = clean.algae[, 1:12]) 


Residuals: 
Min 1Q Median 3Q Max 
-36.460 -11.953 -3.044 7.444 63.730 


Coefficients: 
Estimate Std. Error t value Pr(>|tl) 
(Intercept) 44.9532874 23.2378377 1.934 0.05458 . 


sizemedium 3.3092102 3.7825221 0.875 0.38278 
sizesmall 10.2730961 4.1223163 2.492 0.01358 * 
speedlow 3.0546270 4.6108069 0.662 0.50848 
speedmedium -0.2976867 3.1818585 -0.094 0.92556 
mxPH -3.2684281 2.6576592 -1.230 0.22033 
mn02 0.8011759 0.6589644 1.216 0.22561 
cl -0.0381881 0.0333791 -1.144 0.25407 
NO3 ~1.5334300 0.5476550 -2.800 0.00565 ** 
NH4 0.0015777 0.0009951 1.586 0.11456 
oP04 -0.0062392 0.0395086 -0.158 0.87469 
P04 -0.0509543 0.0305189 -1.670 0.09669 . 
Chla -0.0841371 0.0794459 -1.059 0.29096 


Signif. codes: 0 '***' 0.001 '**' 0.01 '#' 0.05 '.'0.1''1 


Residual standard error: 17.57 on 185 degrees of freedom 

Multiple R-squared: 0.3682, Adjusted R-squared: 0.3272 

F-statistic: 8.984 on 12 and 185 DF, p-value: 1.762e-13 

新 模型 的 拟 合 指标 R 提高 到 了 32.8% ， 仍 然 不 是 太 理想 。 下 面 使 用 anova( ) 函数 对 两 个 模 
型 进行 比较 正式 的 比较 ， 但 这 次 使 用 两 个 模型 作为 参数 : 


> anova(1m.al,1m2.a1) 


了 


Analysis of Variance Table 


Model 1: al ~ season + size + speed + mxPH + mn02 + Cl + NO3 + NH4 + 
oP04 + P04 + Chla 
Model 2: ai ~ size + speed + mxPH + mn02 + Cl + NO3 + NH4 + oPO4 + 


P04 + Chla 
Res.Df RSS Df Sum of Sq F Pr(>F) 

1 182 56668 
2 185 57116 -3 -448 0.4792 0.6971 


上 面 的 函数 通过 下 检验 对 两 个 模型 进行 方差 分 析 ， 据 此 评估 两 个 模型 是 否 有 显著 不 同 。 这 
种 情况 下 ， 尽 管 误差 平方 和 减少 了 ( -448), 但 是 比较 结果 说 明 两 者 的 差距 并 不 显著 (显著 性 
值 0.6971 说 明 两 个 模型 不 同 的 可 能 性 有 30% ) 。 注 意 ， 新 模型 比较 简单 。 为 了 检查 能 否 移 除 更 
多 的 系数 ， 我 们 再 次 对 lm2. al 模型 使 用 anova( ) 郴 数 。 不 断 重复 这 个 过 程 直 到 没有 可 剔除 的 候 
选 系数 。 为 了 简化 向 后 消 元 过 程 ，R 有 一 个 函数 来 执行 上 面 所 有 过 程 。 


48 - QRS R 语言 


下 面 的 代码 对 初始 模型 (lm. al) 用 向 后 消 元 方法 得 到 一 个 新 的 线性 模型 。 
> final.1m <- step(1m.a1) 


Start: AIC= 1151.85 
al ~ season + size + speed + mxPH + mn02 + Cl + NO3 + NH4 + oP04 + 
P04 + Chla 


Df Sum of Sq RSS AIC 

- season 3 426 57043 1147 
- speed 2 270 56887 1149 
- oP04 1 5 56623 1150 
- Chla 1 401 57018 1151 
- Cl 1 498 57115 1152 
- mxPH 1 642 57159 1152 
<none> 56617 1152 
1 650 57267 1152 

1 799 57417 1153 

- P04 1 899 57516 1153 
2 1871 58488 1154 

1 2286 58903 1158 


Step: AIC= 1147.33 
al ~ size + speed + mxPH + mn02 + Cl + NO3 + NH4 + oP04 + P04 + 
Chla 


Df Sum of Sq RSS AIC 
213 57256 1144 
-~ oP04 1 8 57050 1146 
- Chla 1 378 57421 1147 
- m02 1 427 57470 1147 
1 
1 


N 


- speed 


457 57500 1147 
464 57506 1147 
<none> 57043 1147 
1 751 57794 1148 
1 859 57902 1148 
- size 2 2184 59227 1151 
1 2353 69396 1153 


Step: AIC= 1140.09 
al ~ size + mxPH + Cl + NO3 + P04 


Df Sum of Sq RSS AIC 
<none> 58432 1140 


- mxPH 1 801 59233 1141 
- Cl 1 906 59338 1141 
- N03 1 1974 60405 1145 
- size 2 2652 61084 1145 
~ P04 1 8514 66946 1165 


函数 step() 使 用 Akaike 信息 标准 进行 模型 搜索 。 默 认 情 况 下 ， 搜 索 使 用 向 后 消 元 方法 ， 但 
通过 设置 参数 direction， 可 以 采用 其 他 的 方法 (参考 该 函数 的 帮助 文档 以 获取 更 多 信息 )。 


但 ”因为 空间 问题 ， 所 以 在 此 处 省 略 了 部 分 step( ) 函数 的 输出 。 
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可 以 通过 下 面 的 代码 来 获得 最 后 模型 的 信息 : 
> summary (final .1m) 


Call: 

lm(formula = ai ~ size + mxPH + Cl + NO3 + P04, data = clean.algae[, 
1:12]) 

Residuals: 
Min 1Q Median 3Q Max 


-28.874 -12.732 -3.741 8.424 62.926 


Coefficients: 

Estimate Std. Error t value Pr(>jt]) 
(Intercept) 57.28555 20.96132 2.733 0.00687 ** 
sizemedium 2.80050 3.40190 0.823 0.41141 
sizesmall 10.40636 3.82243 2.722 0.00708 ** 


mxPH -3.97076 2.48204 -1.600 0.11130 

cl -0.05227 0.03165 -1.651 0.10028 
NO3 -0.89529 0.35148 -2.547 0.01165 * 
P04 -0.05911 0.01117 -5.291 3.326-07 *** 


Signif. codes: 0 '*#*' 0.001 '+*+' 0.01 '*' 0.05 '.'0.1''1 


Residual standard error: 17.5 on 191 degrees of freedom 
Multiple R-squared: 0.3527, Adjusted R-squared: 0.3324 
F-statistic: 17.35 on 6 and 191 DF, p-value: 5.554e-16 


这 个 模型 所 解释 的 方差 比例 (P) 仍然 不 是 很 可 观 ， 这 样 的 尼 表明 对 海藻 案例 应 用 假定 的 「 69 
线性 模型 是 不 合适 的 。 H 
多 元 线性 回归 的 参考 文献 
线性 回归 是 最 常用 的 统计 技巧 之 一 。 因 此 ， 大 部 分 的 统计 学 书籍 都 有 这 一 主题 的 内 容 。 对 于 
深入 的 研究 ， 可 以 参阅 更 专业 的 书 藉 。 其 中 的 两 本 涉及 回归 分 析 深 入 内 容 的 书籍 是 Drapper 和 
Smith (1981), Myers (1990) 的 书籍 ， 它 们 涵盖 了 你 需要 知道 的 线性 回归 的 绝 大 部 分 内 容 。 
2.6.2 回归 树 
本 节 给 出 R 中 的 另 一 种 回归 模型 。 即 本 节 描 述 了 如 何 通 过 建立 回归 树 (参见 Breiman et al. , 
1984) 来 预测 海藻 al 出 现 的 频率 。 由 于 这 类 模型 能 够 处 理 缺 失 值 ， 所 以 这 里 只 需要 如 前 面 所 述 
移 除 62 号 和 199 号 水 样 即 可 。 
建立 回归 树 模 型 的 代码 如 下 : 
> library (rpart) 
> data(algae) 


> algae <- algae[-manyNAs(algae), ] 
> rt.al <- rpart(al ~ ., data = algae[, 1:12]) 


第 一 条 指令 用 于 加 载 R 中 的 mpart 添加 包 (Themeau and Atkinson, 2010), KA PA BAW 
的 实现 9?。 最 后 一 条 指令 用 于 获取 回归 树 。 注 意 ， 这 里 函数 应 用 的 参数 形式 与 In( ) 函数 的 参数 
形式 相同 。 也 数 rpart( ) 的 第 二 个 参数 给 出 用 于 建立 回归 树 的 数据 集 。 

WR rt. al 的 内 容 如 下 : 


> rt.al 


n= 198 


号 ”实际 上 ， 还 有 另外 一 个 添加 包 也 可 以 实现 此 类 模型 ， 但 是 在 这 个 案例 中 ， 我 们 只 使 用 rpart 程序 。 
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node), split, n, deviance, yval 
* denotes terminal node 
1) root 198 90401.290 16.996460 
2) P04>=43.818 147 31279.120 8.979592 
4) Cl>=7.8065 140 21622.830 7.492857 
8) oP04>=51.118 84 3441.149 3.846429 * 
9) oPO4< 51.118 56 15389.430 12.962500 
18) mn02>=10.05 24 1248.673 6.716667 * 
19) mn02< 10.05 32 12502.320 17.646870 
38) NO3>=3.1875 9 257.080 7.866667 * 
39) NO3< 3.1875 23 11047.500 21.473910 
78) mn02< 8 13 2919.549 13.807690 * 
79) mn02>=8 10 6370.704 31.440000 * 
5) Cl< 7.8065 7 3157.769 38.714290 * 
3) P04< 43.818 51 22442.760 40.103920 
6) mxPH< 7.87 28 11452.770 33.450000 
12) mxPH>=7.045 18 5146.169 26.394440 * 
13) mxPH< 7.045 10 3797.645 46.150000 * 
7) mxPH>=7.87 23 8241.110 48.204350 
14) PO4>=15.177 12 3047.517 38.183330 * 
15) PO4< 15.177 11 2673.945 59.136360 * 
回归 树 是 对 某 些 解释 变量 分 层次 的 逻辑 测试 。 基 于 树 的 模型 自动 筛选 某 些 相关 的 变量 ， 这 样 导 
致 不 是 所 有 的 变量 都 会 在 树 中 出 现 。 树 从 及 标 为 1 的 根 结 点 开始 读 ，R 在 这 个 结 点 中 提供 数据 的 
相关 信息 。 即 ， 可 以 在 该 结 点 中 看 到 一 共有 198 个 水 样 〈 用 于 构建 树 的 训练 集 数据 样本 量 ) ， 在 
这 198 个 水 样 中 ,海藻 al 出 现 的 平均 频率 为 16.99， 相 对 平均 值 的 偏差 为 90 401. 29。 树 的 每 个 
结 点 有 两 个 分 支 ， 这 与 预测 变量 的 检验 结果 有 关 。 例 如 ， 在 根 结 点 中 有 一 个 相应 于 测试 “PO4 > 
43.818” HA (含有 147 个 水 样 ) 的 个 案 分 支 (BR 输出 中 标 为 “2” ) ， 同 时 也 有 另 一 个 分 支 包含 
剩余 的 51 个 不 满足 这 个 测试 的 水 样 (R 标记 为 “3”) 。 从 结 点 2 有 两 个 分 支 分 别 连 接 到 结 点 4 和 
结 点 5， 具 体 到 哪个 结 点 由 对 变量 Cl 的 检验 来 确定 。 不 断 进行 以 上 的 检验 ， 直 到 达到 某 一 个 叶 结 
点 ， 这 些 叶 结 点 在 R 中 由 星 号 标记 出 来 。 在 叶 结 点 ， 我 们 就 可 以 对 树 进 行 预测 了 。 也 就 是 说 ， 
如 果 我 们 想 建 立 一 个 回归 树 来 预测 某 个 水 样 的 频率 ， 只 要 从 根 结 点 开始 根据 对 该 水 样 检 验 的 结 
R, 追踪 某 个 分 支 ， 直 到 叶 结 点 。 叶 结 点 目标 变量 的 平均 值 就 是 树 的 预测 值 。 
我 们 也 可 以 得 到 回归 树 的 图 形 表示 。 可 以 用 函数 plot( ) 和 函数 text( ) 对 树 对 象 绘图 即 可 。 这 
两 个 函数 有 多 个 参数 来 控制 树 的 可 视 化 。 为 了 方便 地 得 到 漂亮 的 树 的 可 视 化 图 形 ， 本 书 的 R 添 
加 包 中 提供 了 函数 prettyTree( ) 。 对 上 面 得 到 的 树 对 象 应 用 该 函数 ， 得 到 图 形 如 图 2-9 所 示 。 


> prettyTree (rt.a1) 


函数 summary() 也 可 以 用 于 树 对 象 。 此 函数 将 给 出 许多 有 关于 树 的 测试 信息 、 其 他 可 能 考 
虑 的 测试 以 及 中 间 分 割 等 。 这 里 的 中 间 分 割 是 R 回归 树 处 理 缺 失 值 的 一 种 方法 。 

通常 分 为 两 步 来 建立 回归 树 。 最 初生 成 一 棵 较 大 的 树 ， 然 后 通过 统计 估计 删除 底部 的 
一 些 结 点 来 对 树 进行 修剪 。 这 个 过 程 的 目的 是 防止 过 度 拟 合 。 事 实 上 ， 一 个 过 度 大 的 树 一 般 
会 很 好 地 对 训练 集 数据 进行 拟 合 ， 但 是 它 会 拟 合 给 定数 据 集中 的 一 些 虚 假 的 关系 ， 因 此 当 把 
该 模型 用 于 新 数据 的 预测 时 ， 预 测 性 能 很 差 。 在 许多 建 模 技术 中 存在 过 度 拟 合 问题 ， 尤 其 是 
当 需 要 逼近 的 函数 的 假设 条 件 不 是 很 严格 的 时 候 。 对 于 要 求 不 严格 的 模型 ， 虽然 它们 的 要 求 
不 高 ， 有 广泛 的 应 用 范围 ， 但 却 存 在 过 度 拟 合 问题 ， 所 以 它 需 要 一 个 事后 统计 估计 步骤 来 避 
免 过 度 拟 合 问题 。 





日 ”不 同 值 与 平均 值 之 差 的 平方 和 。 





图 2-9 预测 海藻 al 的 回归 树 
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上 面 使 用 rpart() 函数 构建 树 ， 在 构建 树 的 过 程 中 ， 当 给 定 条 件 满足 时 构建 过 程 就 停止 。 当 
下 列 条 件 满足 时 ， 树 构建 过 程 将 结束 : 1) 偏差 的 减少 小 于 某 一 个 给 定 界 限 值 时 ; 2) 当 结 点 中 
的 样本 数量 小 于 某 个 给 定 界限 时 ; 3) 当 树 的 深度 大 于 一 个 给 定 的 界限 值 。 上 面 3 个 界限 值 分 别 
由 rpart() 函数 的 三 个 参数 (cp, minsplit, maxdepth) 来 确定 。 它 们 的 默认 值 分 别 为 0.01、20 
和 30。 如 果 要 避免 树 的 过 度 拟 合 问题 ， 就 要 经 常 检查 这 些 默 认 值 的 有 效 性 。 这 可 以 通过 对 得 到 
的 树 采取 事后 修剪 过 程 来 进行 。 

rpart 添加 包 实 现 了 一 种 称 为 复杂 度 损 失修 剪 的 修剪 方法 (Breiman et al. ，1984)。 这 个 方法 
使 用 R 在 每 个 树 结 点 计算 的 参数 值 ep。 这 种 修剪 方法 试图 估计 cp 值 以 确保 达到 预测 的 准确 性 和 
树 的 大 小 之 间 的 最 佳 折 中 。 给 出 一 个 由 函数 rpart( ) 建立 的 回归 树 ，R 可 以 生成 这 棵 树 的 一 些 子 


树 ， 并 估计 这 些 树 的 性 能 。 这 些 信息 可 以 通过 函数 printep() 得 到 ? : 


> printcp(rt.a1) 


Regression tree: 
rpart (formula = al ~ ., 


Variables actually used in tree construction: 


[1] Cl mn02 mxPH NO3 oP04 P04 


Root node error: 90401/198 = 456.57 


n= 198 

CP nsplit rel error xerror xstd 
1 0.405740 0 1.00000 1.00932 0.12986 
2 0.071885 1 0.59426 0.73358 0.11884 
3 0.030887 2 0.52237 0.71855 0.11518 
4 0.030408 3 0.49149 0.70161 0.11585 


@ ”可 以 通过 函数 plotop(r，al ) 以 图 形 方式 来 得 到 类 似 的 信息 。 


data = algae[, 1:12]) 


71 


75 
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5 0.027872 4 0.46108 0.70635 0.11403 
6 0.027754 5 0.43321 0.69618 0.11438 
7 0.018124 6 0.40545 0.69270 0.11389 
8 0.016344 7 0.38733 0.67733 0.10892 
9 0.010000 9 0.35464 0.70241 0.11523 


由 rpart() 函数 建立 的 回归 树 是 上 面 列表 中 的 最 后 一 个 树 ( 树 9)。 这 个 树 的 cp 值 为 0.01 
(参数 cp 的 默认 值 ) ， 该 树 包 括 九 个 测试 和 一 个 相对 误差 值 〈 与 根 结 点 相 比 ) 0.354。 然 而 ，R 
应 用 10 折 交 叉 验证 的 内 部 过 程 ， 评 估 该 树 的 平均 相对 误差 为 0.702 41 +0. 115 23。 根 据 这 些 更 
稳健 的 性 能 估计 信息 ， 可 以 避免 过 度 拟 合 问题 。 可 以 看 到 ，8 号 树 的 预测 相对 误差 (0.677 33) 
最 小 。 另 一 个 选择 标准 是 根据 1- SE 规则 来 选择 最 好 的 回归 树 ， 这 包 插 检查 交叉 验证 的 估计 误差 
(“xerror” 列 )， 以 及 标准 误差 (“xstd” 列 )。 在 这 个 案例 中 ,1 - SE 规则 树 是 最 小 的 树 ， 误 差 小 
于 0.677 33 +0. 108 92 =0.786 25, MH 1 检验 的 2 号 树 的 估计 误差 为 0.733 58。 如 果 我 们 选择 
这 个 树 而 不 是 R 建议 的 树 ， 我 们 就 可 以 通过 使 用 不 同 的 cp (ORE 

> rt2.al <- prune(rt.al, cp = 0.08) 

> rt2.al 


n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.29 16.996460 
2) P04>=43.818 147 31279.12 8.979592 * 
3) P04< 43.818 51 22442.76 40.103920 * 


在 本 书 添加 包 中 的 rpartXse() 函数 可 以 自动 运行 这 个 过 程 ， 它 的 参数 se 的 默认 值 为 1。 
> (rt.al <- rpartXse(al ”.，data = algae[, 1:12])) 
n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.29 16.996460 
2) P04>=43.818 147 31279.12 8.979592 * 
3) PO4< 43.818 51 22442.76 40.103920 * 


可 以 应 用 R 的 函数 snip. rpart() 来 交互 地 对 树 进 行 修剪 。 这 个 函数 可 以 通过 两 种 方式 生成 一 
个 修剪 过 的 回归 树 。 第 一 种 方法 是 指出 需要 修剪 那个 地 方 的 结 点 号 〈 可 以 通过 输出 树 对 象 来 得 
到 树 的 结 点 号 ) : 

> first.tree <- rpart(al ~ ., data = algae[, 1:12]) 

> snip.rpart(first.tree, ¢c(4, 7)) 

n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


O 注意 ,你 可 能 在 列 “xeror” 和 列 “xstd” 得 到 不 同 的 数值 。 交 互 验证 估计 值 是 通过 随机 抽样 得 到 的 ， 这 意味 着 
你 的 抽样 可 能 和 这 里 的 不 同 ， 因 此 得 到 的 结果 也 是 不 同 的 。 
© 事实 上 ， 可 以 用 它 对 应 的 cp 值 和 它 上 面 的 那 棵 树 的 cp 值 之 间 的 任何 数值 。 


1) root 198 90401.290 16.996460 
2) P04>=43.818 147 31279.120 8.979592 
4) Cl>=7.8065 140 21622.830 7.492857 * 
5) Cl< 7.8065 7 3157.769 38.714290 * 
3) P04< 43.818 51 22442.760 40.103920 
6) mxPH< 7.87 28 11452.770 33.450000 


12) mxPH>=7.045 18 5146.169 26.394440 + 
13) mxPH< 7.045 10 3797.645 46.150000 * 


7) mxPH>=7.87 23 8241.110 48.204350 * 
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这 个 函数 与 mpar( ) 函数 一 样 返回 一 个 树 对 象 ， 所 以 可 以 用 形 如 my. tree < — snip. rpart 


(first. tree,c(4,7)) 这 样 的 代码 来 保存 这 个 修剪 过 的 树 。 


另外 ， 也 可 以 在 图 形 窗口 下 使 用 snip. rpart() 函数 。 首 先 ， 画 出 回归 树 ， 然 后 调用 没有 第 二 


> prettyTree(first.tree) 
> snip.rpart(first.tree) 


node number: 2 n= 147 
response= 8.979592 
Error (dev) = 31279.12 

node number: 6 n= 28 
response= 33.45 
Error (dev) = 11452.77 

n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.290 16.996460 
2) P04>=43.818 147 31279.120 8.979592 * 
3) PO4< 43.818 51 22442.760 40.103920 
6) mxPH< 7.87 28 11452.770 33.450000 * 
7) mxPH>=7.87 23 8241.110 48.204350 


14) P04>=15.177 12 3047.517 38.183330 * 
15) PO4< 15.177 11 2673.945 59.136360 * 


在 上 例 中 ， 点 击 并 修剪 了 结 点 2 和 结 点 6。 
回归 树 的 参考 文献 


个 参数 的 函数 。 如 果 点 击 回归 树 的 某 些 结 点 ，R 会 在 控制 台 输 出 这 些 结 点 的 信息 。 如 果 继 续 点 击 
这 个 结 点 ，R 就 在 这 个 结 点 对 树 进行 修剪 ”。 可 以 在 图 形 窗口 继续 修剪 回归 树 ， 直 到 右 击 结束 这 
一 交互 式 的 修剪 过 程 。 调 用 该 函数 的 结果 仍然 是 一 个 树 对 象 : 


如 果 需 要 更 加 全 面 的 学 习 回 归 树 ， 可 以 参考 Breiman 等 (1984) 的 书籍 。 该 书 是 分 类 树 和 回 


归 树 的 标准 参考 文献 。 对 一 些 读者 而 言 ， 本 书 的 方法 可 能 有 些 太 正式 〈 至 少 某 些 章节 )。 无 论 如 
何 ， 这 本 书 都 绝对 是 一 本 极 好 的 参考 书 ， 尽 管 它 更 偏重 于 统计 文献 。 从 机 器 学 习 方 面 而 言 ，Quinlan 
(1993) 的 有 关 C4.5 的 书 是 一 本 有 关 分 类 树 的 很 好 的 参考 书 。 本 书 作 者 的 博士 论文 (Torgo，1999a) 
给 出 了 很 好 的 回归 树 入 门 知识 和 高 级 主题 ， 你 可 以 从 作者 网 站 免费 下 载 。 论 文中 也 介绍 了 其 他 基于 
树 的 模型 ， 它 们 的 目的 是 在 叶 结 点 用 更 复杂 的 模型 来 提高 回归 树 的 精确 度 (Torgo，2000)。 


2.7 模型 的 评价 和 选择 


2.6 节 给 出 了 本 案例 的 两 个 预测 模型 的 例子 。 最 明显 的 问题 是 ， 应 该 使 用 哪 一 个 模型 来 获得 


全 ”注意 ， 因 为 回归 树 的 图 片 没有 更 新 ， 所 以 你 不 会 在 图 形 窗口 看 到 修剪 回归 树 的 过 程 。 
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7 种 海藻 的 140 个 测试 样品 的 预测 。 为 了 回答 这 个 问题 ， 需 要 在 可 供 选 择 的 模型 空间 中 指定 一 些 
模型 的 偏好 标准 ， 也 就 是 说 ， 需 要 详细 说 明 应 该 如 何 评价 模型 的 性 能 。 


有 多 种 评价 〈 和 比较 ) 模型 的 标准 。 其 中 最 流行 的 标准 是 计算 模型 的 预测 性 能 。 当 然 还 有 


其 他 衡量 模型 的 标准 ， 例 如 模型 的 可 解释 性 ， 还 有 对 大 型 数据 挖掘 特别 重要 的 标准 ， 即 模型 的 计 
算 效率 。 


回归 模型 的 预测 性 能 是 通过 将 目标 变量 的 预测 值 与 实际 值 进行 比较 得 到 的 ， 并 从 这 些 比较 


中 计算 某 些 平均 误差 的 度量 。 一 种 度量 方法 是 平均 绝对 误差 (MAE) 。 下 面 描述 如 何 获得 2.6 节 
中 两 个 模型 (线性 回归 和 回归 树 ) 的 平均 绝对 误差 。 第 一 步 ， 获 取 需 要 评价 模型 预测 性 能 的 测 
试 集 个 案 的 预测 值 。 在 R 中 ， 要 获得 任何 模型 的 预测 ， 就 要 使 用 函数 predict( ) 进行 预测 。 函 数 
predict() 是 一 个 泛 型 函数 ， 它 的 一 个 参数 为 需要 应 用 的 模型 ， 另 一 个 参数 为 数据 的 测试 集 ， 输 
出 结果 为 相应 的 模型 预测 值 : 


> lm.predictions.al <- predict (final.1lm, clean.algae) 
> rt.predictions.al <- predict(rt.al, algae) 


上 面 两 个 命令 将 输出 2. 6 节 中 得 到 的 预测 海藻 al 的 两 个 模型 的 预测 值 。 注 意 ， 因 为 原始 训 


练 集 数 据 含 有 缺失 值 ， 所 以 在 线性 回归 模型 中 使 用 的 数据 是 数据 框 clean. algae, 


得 到 模型 的 预测 值 后 ， 就 可 以 计算 出 其 平均 绝对 误差 ， 如 下 所 示 : 


> (mae.ai.lm <- mean(abs(lm.predictions.ai - algae[, "a1"]))) 
[1] 13.10681 
> (mae.al.rt <- mean(abs(rt.predictions.al - algae[, "a1"]))) 


[1] 11.61717 


另 一 种 流行 的 误差 度量 是 均 方 误差 (MSE) 。 可 以 由 下 列 代码 计算 均 方 误差 : 
> (mse.ai.lm <- mean((lm.predictions.al - algae[, “ai"])~2)) 


[1 295.5407 
> (mse.al.rt <- meanf(rt,predictions.al - algae[, "a1"])°2)) 


[1] 271.3226 
后 一 种 误差 度量 方法 的 不 足 之 处 是 : 误差 值 和 目标 变量 的 单位 不 统一 ， 因 此 从 用 户 的 角度 


看 ， 这 种 误差 不 好 解释 。 即 使 应 用 平均 绝对 误差 (MAE) 来 度量 误差 ， 问 题 是 如 何 判断 模型 的 
得 分 是 好 还 是 差 。 能 够 解决 这 一 问题 的 误差 度量 是 标准 化 后 的 平均 绝对 误差 (NMSE)。 这 一 统 
计量 是 计算 模型 预测 性 能 和 基准 模型 的 预测 性 能 之 间 的 比率 。 通 常 采用 目标 变量 的 平均 值 来 作 
为 基准 模型 ， 代 码 如 下 : 


> > (nmse. ai.lm <- mean((1m.predictions.ai-algae[,'a1']}*2)/ 
mean( (mean (algae[,'a1'])-algae [,'a1']) “2)) 


[1] 0.6473034 


> (umse.ai.rt <- mean((rt.predictions.al-algae[,'ai'])°2)/ 
+ mean ( (mean (algae[,'a1'])~algae[,'a1'])°2)) 


[1] 0.5942601 
NMSE 是 一 个 比值 ， 其 取 值 范围 通常 为 0 ~ 1。 如 果 模 型 表现 优 于 这 个 非常 简单 的 基准 模型 预 


测 ， 那 么 NMSE 应 明显 小 于 1。NMSE 的 值 越 小 ， 模 型 的 性 能 就 越 好 。NMSE 的 值 大 于 1， 意味 着 
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模型 预测 还 不 如 简单 地 把 所 有 个 案 的 平均 值 作为 预测 值 ! 
在 本 书 提供 的 RSM, PAR regr. eval( ) 用 来 计算 线性 回归 模型 的 性 能 度量 指标 。 下 面 
给 出 应 用 该 函数 一 个 例子 。 可 以 查找 该 函数 的 帮助 文档 来 获取 这 个 函数 的 不 同 用 法 。 


> regr.eval(algae[, "ai"], rt.predictions.al, train.y = algae[, 
+ "al "]) 


mae mse rmse nmse nmae 
11.6171709 271.3226161 16.4718735 0.5942601 0.6953711 


可 视 化 地 查看 模型 的 预测 值 将 更 加 有 趣 。 一 种 方法 是 绘制 误差 的 散 点 图 。 图 2-10 给 出 了 对 
两 种 模型 的 预测 值 的 可 视 化 分 析 ， 这 是 由 以 下 的 代码 产生 的 : 


> old.par <- par(mfrow = c(1, 2)) 

> plot(1m.predictions.ai, algae[, “ai"], main = "Linear Model", 

+ xlab = "Predictions", ylab = "True Values") 

> abline(0, 1, lty = 2) 

> plot(rt.predictions.a1, algae[, "ai"], main = "Regression Tree", 
+ xlab = "Predictions", ylab = "True Values") 

> abline(0, 1, lty = 2) 

> par(old.par) 
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Æ 2-10 模型 预测 值 和 真实 值 的 散 点 图 


从 图 2-10 中 可 知 ， 这 两 个 模型 在 许多 个 案 上 的 性 能 比较 差 。 在 理想 的 情况 下 ， 模 型 对 所 有 
的 案例 做 出 正确 的 预测 时 ， 图 中 的 所 有 圈 应 该 在 虚线 上 ， 这 条 虚线 是 通过 函数 abline(0,1,lty = 
2) 来 绘制 的 。 这 条 虚线 穿 过 坐标 系 的 原点 ， 代 表 x 坐标 与 y 坐标 相等 的 点 集 。 图 2- 10 中 每 个 圆 
圈 的 x 坐标 和 y 坐标 分 别 代表 目标 变量 的 预测 值 和 真实 值 ， 如 果 它 们 相等 ， 那 么 这 些 圆圈 就 会 落 
在 这 条 理想 的 直线 上 。 正 如 从 图 2-10 中 所 观察 到 的 ， 情 况 并 非 如 此 ! 可 以 用 函数 identify( ) 来 
检查 那些 预测 特别 差 的 样本 点 ， 该 函数 可 以 让 用 户 通过 互动 方式 点 击 图 形 中 的 点 ， 代 码 如 下 : 


> plot (1m.predictions.al,algae[,'ai'] ,main="Linear Model", 

+ xlab="Predictions",ylab="True Values") 

> abline(0,1,1ty=2) 

> algae[identify (1m. predictions.a1,algae[,'al']),] 

运行 上 面 的 代码 ， 并 在 图 形 上 点 击 ， 然 后 右 击 结束 交互 过 程 后 ， 应 该 看 到 相应 于 所 点 击 的 贺 
圈 的 海藻 数据 框 的 行 数据 一 一 因为 这 里 用 函数 identify( ) 得 到 的 向 量 来 索引 海藻 数据 框 。 

观察 图 2-10 的 左 图 ， 它 对 应 的 是 线性 回归 模型 。 注 意 ， 有 一 些 个 案 的 海藻 频率 的 预测 值 为 
负 值 。 在 本 案例 中 ,海藻 在 出 现 频 率 为 负 值 时 没有 意义 ( 至少 是 零 )。 因 此 ， 可 以 用 以 上 知识 和 
海藻 频率 的 最 小 可 能 取 值 来 优化 上 面 的 线性 回归 模型 。 
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> sensible.lm.predictions.al <- ifelse(lm.predictions.ai < 


+ 0, O, Im.predictions.a1) 
> regr.eval(algae[, "ai"], lm.predictions.al, stats = c("mae", 
+ "mse")) 

mae mse 


13.10681 295.54069 


> regr.eval(algae[, "ai"], sensible.lm.predictions.al, stats = c("mae", 
+ "mse")) 


mae mse 
12.48276 286.28541 


上 面 代码 应 用 函数 ifelse( ) 来 改进 模型 的 预测 结果 。 该 函数 有 三 个 参数 ， 第 一 个 参数 是 逻辑 
条 件 ， 第 二 个 参数 是 当 逻 辑 条 件 为 真 时 函数 的 取 值 ， 第 三 个 参数 是 当 逻 辑 条 件 不 成 立时 函数 的 
取 值 。 注 意 ， 通 过 这 一 小 的 细节 就 提高 了 模型 的 性 能 。 

根据 以 上 计算 出 的 模型 的 性 能 指标 ,我们 倾向 于 选择 回归 树 模型 来 预测 140 个 测试 样品 
的 频率 值 ， 因 为 该 模型 有 较 低 的 NMSE 值 。 然 而 ， 这 种 推理 有 一 个 缺陷 。 我 们 的 分 析 目 标 是 
获得 能 够 对 140 个 测试 样品 的 频率 进行 预测 的 最 佳 模型 。 由 于 不 知道 这 些 测试 样本 的 目标 变 
量 值 ， 所 以 我 们 需要 估计 哪 一 个 模型 将 在 这 些 测试 样本 上 有 和 较 好 的 性 能 。 这 里 的 关键 问题 是 
在 不 知道 数据 集 真实 的 目标 变量 取 值 时 ， 要 获得 模型 在 该 数据 集 上 可 靠 的 性 能 估计 。 使 用 已 有 
的 训练 数据 获得 模型 的 性 能 指标 (如 前 文 所 进行 的 过 程 ) 是 不 可 靠 的 ， 因 为 这 些 计 算是 有 偏 的 。 
实际 上 ， 有 的 模型 可 以 很 容易 地 获得 训练 数据 的 零 误差 预测 。 然 而 ， 模 型 的 这 一 优秀 性 能 很 难 推 
广 到 目标 变量 值 未 知 的 新 样本 上 。 正 如 之 前 所 述 ， 这 种 现象 通常 称 为 过 度 拟 合 训 练 数据 。 因 此 ， 
为 了 选择 一 个 合适 的 模型 ， 我 们 需要 获得 模型 在 未 知 数据 上 预测 性 能 的 更 加 可 靠 的 估计 。 上 丰 折 交 
叉 验 证 是 获得 模型 性 能 可 靠 估 计 的 一 种 常用 方法 ， 它 适用 于 像 本 案例 这 样 的 小 数据 集 。 这 种 方 
法 可 以 简要 介绍 如 下 。 首 先 获取 天 个 同样 大 小 的 随机 训练 数据 子 集 。 对 于 这 堪 个子 集 的 每 一 个 子 
集 ， 用 除去 它 之 外 的 其 余 -1 个 子 集 建立 模型 ， 然 后 用 第 子 集 来 评估 这 个 模型 ， 最 后 存储 模 
型 的 性 能 指标 。 对 其 余 的 每 个 子 集 重 复 以 上 过 程 ， 最 后 有 & 个 性 能 指标 的 测量 值 ， 这 些 性 能 指标 
是 通过 在 没有 用 于 建 模 的 数据 上 计算 得 到 的 ， 这 也 是 关键 之 处 。% 折 交 又 验证 估计 是 这 个 性 能 
指标 的 平均 。 常 见 的 选择 是 上 = 10。 有 时 我 们 会 重复 进行 多 次 有 折 交 叉 验证 以 获得 更 加 可 靠 的 
估计 。 

总 之 ， 当 面 对 一 项 预测 任务 时 ， 需 要 做 出 下 列 决策 : 

。 为 预测 任务 选择 模型 (同一 算法 的 不 同 参数 设 定 也 可 以 认为 是 不 同 的 模型 ) 。 

。 选择 比较 模型 性 能 的 评估 指标 。 

© 选择 获取 评估 指标 的 可 靠 估计 的 实验 方法 。 

在 书 提供 的 R 添加 包 中 ， 提 供 了 函数 experimentalComparison( ) ， 它 用 来 进行 模型 的 选择 和 比 
较 任 务 。 它 可 以 和 不 同 的 估计 方法 一 起 使 用 ， 如 交叉 验证 法 。 这 个 函数 有 三 个 参数 : 1) 用 于 比 
较 的 数据 集 ; 2) 需要 比较 的 可 选 模型 ; 3) 实验 过 程 中 的 系数 。 我 们 以 海藻 数据 集 为 例 ， 用 它 
来 比较 线性 回归 模型 和 几 个 不 同 的 回归 树 模 型 。 

函数 experimentalComparison( ) 适用 于 任何 模型 和 任何 数据 ， 在 这 个 意义 上 ， 它 是 一 个 泛 型 
函数 。 使 用 者 提供 一 组 实现 待 比较 的 模型 的 函数 。 其 中 每 一 个 函数 应 该 对 训练 集 和 测试 集 实现 
一 个 完整 的 “训练 + 测试 + 评估 ”周期 。 在 评估 过 程 的 每 一 次 迭代 中 ， 调 用 这 些 函 数 。 这 些 函 
数 应 该 返回 一 个 向 量 ， 其 元 素 为 交叉 验证 中 用 户 需要 的 性 能 评估 指标 值 。 下 面 给 出 两 个 目标 模 
型 的 函数 : 
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> cv.rpart <- function(form,train,test,...) { 

+ m <- rpartXse(form,train,...) 

+ p <- predict (m,test) 

+ mse <- mean((p-resp(forn, test))~2) 

+  c¢(nmse=mse/mean((mean (resp (form, train) )-resp(form, test))“2)) 
++} 

> cv.im <- function(forn,train,test,...) { 

+ m <- lm(form,train,...) 

+ p <- predict (m,test) 

+ p <- ifelse(p < 0,0,p) 

+ mse <- mean((p-resp(form, test) )~2) 

+  c(omse=mse/mean ((mean(resp(form, train) )-resp(form, test) )“2)) 
+ 


} 

在 这 个 示例 中 ， 假 设 用 NMSE 作为 线性 回归 模型 和 回归 树 模型 的 性 能 评估 指标 。 所 有 这 些 用 
户 定义 的 函数 的 前 三 个 参数 应 该 是 公式 、 训 练 数据 和 测试 数据 。 实 验 过 程 调用 函数 时 可 以 应 用 
的 其 他 参数 包括 要 评估 模型 所 需要 的 参数 。 虽 然 要 评估 的 两 个 模型 应 用 了 完全 不 同 的 学 习 算法 ， 
但 是 两 个 模型 函数 都 有 同样 的 “训练 + 测试 + 评估 ”周期 。 函 数 的 定义 中 还 包括 一 个 特殊 参数 
“,.. ”。 这 个 特殊 参数 可 以 用 在 任意 的 R 函数 中 ， 它 允许 一 个 特定 函数 具有 可 变 的 参数 。 其 实 ， 
“... ”这 个 参数 结构 是 一 列表 ， 它 用 来 获取 传递 给 函数 的 前 三 个 命名 参数 之 后 的 所 有 和 参数。 这 
个 结构 用 于 给 实际 模型 传递 所 需要 的 额外 参数 (例如 在 函数 rpartXse( ) 中 和 函数 Im() 中 )。 这 
些 函 数 的 另 一 个 特殊 之 处 是 应 用 本 书 添加 包 提 供 的 函数 resp( ) ， 它 用 于 根据 公式 获得 数据 集 的 
目标 变量 值 。 

在 定义 好 用 于 模型 学 习 和 测试 的 函数 后 ， 就 可 以 按 下 列 代码 进行 模型 的 交叉 验证 比较 : 


> res <- experimentalComparison( 


+ c(dataset(al ~ .,clean.algae[,1:12],'al')), 
+ c(variants(‘cv.1m'), 

+ variants ('cv.rpart',se=c(0,0.5,1))), 

+ cvSettings (3,10, 1234)) 


##### = CROSS VALIDATION EXPERIMENTAL COMPARISON ###HHE 
** DATASET :: al 


++ LEARNER :: cv.lm variant -> cv.lm.defaults 
Repetition 1 

Fold: 1 2 3 4 5 6 7 8 9 10 
Repetition 2 

Fold: 1 2 3 4 5 6 7 8 9 10 
Repetition 3 

Fold: 1 2 3 465 6 7 8 9 10 


++ LEARNER :: cv.rpart variant -> cv.rpart.v1 
Repetition 1 

Fold: 12 3 45 6 7 8 9 10 
Repetition 2 

Fold: 1 2 3 4 5 6 7 8 9 10 
Repetition 3 

Fold: 1 2 3 4 5 6 7 8 9 10 


++ LEARNER :: cv.rpart variant -> cv.rpart.v2 
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Repetition 1 
Fold: 12 3 4 5 6 7 8 9 10 
Repetition 2 
Fold: 12 3 45 6 7 8 9 10 
Repetition 3 
Fold: 12 3 4 5 6 7 8 9 10 


++ LEARNER :: cv.rpart variant -> cv.rpart.v3 
Repetition 1 

Fold: 12 3 4 5 6 7 8 9 10 
Repetition 2 

Fold: 1 2 3 45 6 7 8 9 10 
Repetition 3 

Fold: 12 3 45 6 7 8 9 10 


像 先前 提 到 那样 ， 第 一 个 参数 是 含有 在 实验 比较 中 所 应 用 数据 集 的 一 个 向 量 。 每 个 数据 集 
的 声明 形式 为 datatset( < formula > ,< data frame > ,< label >), PAA experimentalComparison( ) 的 
第 二 个 参数 包含 要 研究 的 可 选 的 模型 方法 。 每 一 个 模型 方法 通过 函数 variant( ) 来 指定 ， 该 函数 
的 第 一 个 参数 是 用 户 定义 的 用 于 “学 习 + 测 试 + 评估 ”周期 的 函数 名 称 。 其 余 的 可 选 参 数 用 来 
给 出 估计 方法 的 其 他 参数 的 可 选 值 。 函 数 variantes( ) 根据 所 有 参数 值 的 组 合生 成 一 组 可 选 模型 。 
83 | 在 上 面 例子 的 代码 中 ， 模 型 “cv. lm” 采用 了 默认 参数 值 ， 而 模型 “cv. mpart” 的 参数 se 则 给 出 
了 不 同 的 取 值 。 这 意味 着 实验 将 包含 回归 树 的 三 个 版 本 ， 这 点 可 以 在 上 面 的 函数 输出 中 得 到 确 
UA. Æt experimentalComparison() 的 第 三 个 参数 是 设 定 交 叉 验 证 实验 的 参数 ， 即 大 折 交叉 验证 
过 程 重 复 的 次 数 (这 里 设 为 3) .天 的 取 值 (10) 、 随 机 数 生成 器 的 种 子 。 最 后 的 参数 (随机 数 种 
F) 设 定 可 以 保证 在 必要 的 情况 下 可 以 重 现 我 们 的 实验 〈 例 如 更 换 了 训练 模型 系统 ) 。 
这 个 代码 调用 的 结果 是 一 个 复杂 的 对 象 ， 它 包含 实验 比较 的 所 有 信息 。 在 本 书 的 R 添加 包 
中 提供 了 多 种 获取 这 些 信 息 的 函数 。 例 如 ， 下 面 代码 提供 了 比较 结果 的 概要 : 


> summary (res) 


== Summary of a Cross Validation Experiment == 
3 x 10 - Fold Cross Validation run with seed = 1234 


* Datasets :: al 
* Learners :: cv.lm.defaults, cv.rpart.v1, cv.rpart.v2, cv.rpart.v3 


* Summary of Experiment Results: 


-> Datataset: ai. 


*Learner: cv.lm.defaults 
nmse 
avg 0.7196105 
std 0.1833064 
min 0. 4678248 
max 1.2218455 
invalid 0.0000000 


*Learner: cv.rpart.v1 
nmse 
avg 0.6440843 
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std 0.2521952 
‘min 0.2146359 
max 1.1712674 
‘invalid 0.0000000 


*Learner: cv.rpart.v2 
nmse 
avg 0.6873747 
std 0.2669942 
min 0.2146359 
max 1.3356744 
invalid 0.0000000 


*Learner: cv.rpart.v3 
nmse 
avg 0.7167122 
std 0.2579089 
min 0.3476446 
max 1.3356744 
invalid 0.0000000 


从 结果 中 可 知 ， 其 中 的 一 个 回归 树 有 最 优 的 平均 NMSE 值 。 这 个 NMSE 值 是 否 明显 优 于 其 他 模 
型 ， 目 前 还 不 明显 ， 本 节 的 后 面 将 回 到 这 个 问题 。 可 以 得 到 这 些 结果 的 可 视 化 图 形 ( 见 图 2-11)。 
代码 如 下 : 


> plot (res) 





Cv.rpart.v3 


cv.rpart.v2 











ev.rpart.v1 


cv.Im.defaults 








nmse 


图 2-11 交互 验证 结果 的 可 视 化 


函数 experimentalComparison( ) 给 每 个 模型 一 个 标记 ， 如 果 你 想 知道 任何 标记 模型 所 对 应 的 
参数 ， 代 码 如 下 : 
> getVariant("cv.rpart.vi", res) 
Learner:: "cv.rpart" 
Parameter values 
se = 0 


可 以 同时 对 所 有 7 个 预测 任务 进行 与 上 面相 似 的 比较 实验 。 执 行 以 下 代码 : 
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> DSs <- sapply (names (clean. algae) [12:18], 
function(x,names.attrs) { 
f <- as.formula(paste(x,"~ .")) 
dataset (f, clean. algae[,c(names.attrs,x)],x) 
}, 
names (clean. algae) [1:11]) 
res.all <- experimentalComparison( 
DSs, 
c(variants('cv.1m'), 
variants ('cv.rpart',se=c(0,0.5,1)) 


tee teever ttt 


)， 
cvSettings(5,10,1234)) 


为 了 节省 篇 幅 ， 我 们 省 略 了 以 上 代码 的 输出 。 上 面 代码 首先 创建 用 于 比较 7 个 预测 任务 的 数 
据 集 向 量 。 对 每 一 个 预测 问题 需要 构建 一 个 公式 ， 该 公式 由 一 个 字符 串 构成 ， 它 是 数据 集中 相应 
的 需要 预测 的 目标 变量 和 符号 “ ~. ”连接 而 成 的 。 然 后 ， 该 字符 串通 过 函数 as. formula() 转换 
为 一 个 R 公式 。 和 前 面 一 样 ， 创 建 用 于 函数 experimentalComparison( ) 的 数据 向 量 ， 不 同 的 是 要 
重复 5 次 10 折 交 叉 验证 以 提高 统计 结果 的 显著 性 。 根 据 计 算 机 的 运行 速度 ， 这 条 指令 可 能 要 运 
行 一 会 儿 。 

图 2-12 展现 了 在 交叉 验证 方法 下 ， 模 型 对 不 同 海藻 的 结果 。 绘 制图 2-12 的 代码 如 下 : 

> plot (res.all) 


从 图 2-12 中 可 知 ， 有 几 个 很 差 的 结果 ， 也 就 是 说 ， 几 个 NMSE 值 明 显 大 于 1。 测试 结果 比 简 
单 地 采用 目标 变量 的 平均 值 这 一 基准 模型 还 要 差 ! 如 果 需 要 知道 每 个 问题 对 应 的 最 优 模型 ， 可 
UA iii FA RZ bestScores( ) ， 代 码 如 下 : 

> bestScores(res.all1) 

$ai 


system score 
nmse cv.rpart.vi 0.64231 


$a2 

system score 
nmse cv.rpart.v3 1 
$a3 

system score 
mmse cv.rpart.v2 1 
$a4 

system score 
nmse cv.rpart.v2 1 
$a5 


system score 


nmse cv.lm.defaults 0.9316803 


system score 
nmse cv.lm.defaults 0.9359697 


system score 
nmse cv.rpart.v3 1.029505 


ev.rpart.v3 | $o 
ev.rpart.v2 | 
ev.rpart.v1 i 


cv.Im.defautts |: 


cv.rpart.va |; 
cv.rpart.v2 
cvfpartv1 i 
ev.im.detautts | $ | 












ev.rpart.v2 k | 
cy.rpart.vt | | 
cv.lm.defaults è | 


0 5 10 15 


nmse 


图 2-12 所 有 海藻 的 交叉 验证 结果 的 可 视 化 
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上 面 结果 说 明 ， 除 了 海藻 1 外 ， 其 他 海藻 的 预测 结果 都 不 好 。 图 2-12 给 出 的 结果 变 差 表 
明 ， 组 合 方法 也 许 是 一 种 好 的 预测 模型 。 组 合法 是 一 种 模型 构建 方法 ， 它 通过 产生 大 量 可 选 
模型 并 把 这 些 模型 进行 组 合 ， 这 样 得 到 的 模型 可 以 克服 单个 模型 的 局 限 性 。 有 许多 方法 来 得 
到 组 合 模型 ， 这 些 不 同 的 模型 不 仅 在 于 获取 模型 的 方法 不 同 〈 例 如 ， 获 取 模 型 的 训练 集 数 据 
的 不 同 、 变 量 不 同 、 建 模 方法 不 同 ) ， 也 在 于 组 合 预测 的 不 同 。 随 机 森林 (Breiman，2001 ) 
被 视 为 组 合 模型 有 竞争 性 的 例子 之 一 ， 它 由 大 量 的 树 模型 (回归 树 或 者 分 类 树 ) 构成 。 每 个 
树 是 完全 生长 (没有 事后 剪 枝 ) ， 在 树 生长 的 每 一 步 又， 最 好 的 结 点 分 割 方法 将 从 变量 集合 的 
一 个 随机 子 集中 选取 。 回 归 任 务 的 预测 采用 组 合 中 预测 结果 的 平均 值 。R 的 添加 包 
randomForest (Liaw and Wiener, 2002) 的 函数 randomForest( ) 实现 回归 树 的 思想 。 以 下 代码 
是 重复 先前 交叉 验证 ， 这 次 是 包含 三 个 版 本 的 随机 森林 模型 ， 在 组 合 中 每 个 模型 有 不 同 数目 
的 树 ， 这 里 又 一 次 把 输出 忽略 。 


> library(randomForest) 

> ev.rf <- function(form,train,test,...) { 
+ m <- randomForest (form,train,...) 

p <- predict (m, test) 

mse <- mean((p-resp(form, test) ) "2) 


了 

res.all <- experimentalComparison( 
DSs, 
c(variants(‘cv.1n'), 


+e tvt ete 


+ + 


), 
cvSettings(5,10,1234)) 


应 用 函数 bestScores( ) ， 能 证 实 组 合 方法 的 优势 


c (nmse=mse/mean ( (mean (resp(form, train) )-resp(form, test))°2)) 


variants ('cv.rpart',se=c(0,0.5,1)), 


variants ('cv.rf',ntree=c (200,500, 700)) 
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> bestScores (res.all) 


$al 
system score 
nmse cv.rf.v3 0.5447361 


system score 
nnmse cv.rf.v3 0.7777851 


system score 
nmse cv.rf.v2 0.9946093 


system score 
nmse cv.rf.v3 0.9591182 


system score 
nmse cv.rf.v1 0.7907947 


systen score 
nmse cv.rf.v3 0.9126477 


$a7 
system score 
nmse cv.rpart.v3 1.029505 


事实 上 ,除了 海藻 7 以 外 的 所 有 问题 ， 最 好 的 结果 是 由 随机 森林 的 某 些 变 体 给 出 的 。 而 且 ， 
结果 不 是 总 是 很 好 ， 尤 其 是 对 于 海藻 7。 函数 bestSeores( ) 并 没有 告诉 我 们 这 些 最 佳 模型 和 剩余 
其 他 模型 之 间 的 区 别 是 否 显 著 。 也 就 是 说 ,采用 另外 的 随机 数据 我 们 能 得 到 相似 结果 的 可 能 性 
是 多 少 ? 本 书 提供 的 R 添加 包 中 的 函数 compAnalysis( ) 可 以 提供 这 一 信息 。 它 对 一 个 模型 和 其 
他 另 一 个 模型 进行 成 对 的 Wilcoxon 检验 。 下 面 举例 说 明 该 函数 的 某 些 应 用 。 

对 于 海藻 1、2、4 和 6， 模 型 “cv. df. V3” 是 最 好 的 。 下 面 的 代码 将 给 出 这 一 论断 的 统计 显 


著 性 : 
> compAnalysis(res.all,against='cv.rf.v3', 
datasets=c(‘al','a2','a4','a6')) 


== Statistical Significance Analysis of Comparison Results == 


Baseline Learner: : cv.rf.v3 (Learn.1) 
** Evaluation Metric:: nmse 


- Dataset: al 


Learn.1 Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 


AVG 0.5447361 0.7077282 ++ 0.6423100 + 0.6569726 
STD 0.1736676 0.1639373 0.2399321 0.2397636 
Learn.5 sig.5 Learn.6 sig.6 Learn.7 sig.7 


AVG 0.6875212 ++ 0.5490511 0.5454724 
STD 0.2348946 0.1746944 0.1766636 
- Dataset: a2 


Learn.1 Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 
AVG 0.7777851 1.0449317 ++ 1.0426327 ++ 1.01626123 ++ 
STD 0.1443868 0.6276144 0.2005522 0.07435826 
Learn.6 sig.5 Learn.6 sig.6 Learn.7 sig.7 
AVG 1.000000e+00 ++ 0.7829394 0.7797307 
STD 2.389599e-16 0.1433550 0. 1476815 


- Dataset: a4 


Learn.1 Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 
AVG 0.9591182 2.111976 1.0073953 + 1.000000e+00 + 
STD 0.3566023 3.118196 0.1065607 2.774424e-16 
Learn.5 sig.5 Learn.6 sig.6 Learn.7 sig.7 
AVG 1.000000e+00 + 0.9833399 0.9765730 
STD 2.774424e-16 0.3824403 0.3804456 
- Dataset: a6 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 
AVG 0.9126477 0.9359697 ++ 1.0191041 1.000000e+00 
STD 0.3466902 0.6045963 0.1991436 2.451947e-16 
Learn.5 sig.5 Learn.6 sig.6 Learn.7 sig.7 
AVG 1.000000e+00 ` 0.9253011 0.9200022 
STD 2.451947e-16 0.3615926 0.3509093 
Legends: 


Learners -> Learn.1 = cv.rf.v3 ; Learn.2 = cv.lm.defauits ; 


Learn.3 = cv.rpart.vi ; Learn.4 = cv.rpart.v2 ; Learn.5 = cv.rpart.v3 ; 


Learn.6 = cv.rf.vi ; Learn.7 = cv.rf.v2 ; 
Signif. Codes -> 0 '++' or '--' 0.001 '+' or '~' 0.05 '' 1 
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上 面 结 果 中 的 “sig. X” 列 提供 了 我 们 需要 的 信息 。 如 果 这 一 列 没有 任何 标识 符号 则 意味 着 
相应 的 模型 和 “ev. rf. v3” 模 型 之 间 有 显著 差异 的 可 能 性 低 于 95% (检查 图 例 以 理解 符号 的 含 
义 ) WE 〈“ +”) 意味 着 相应 模型 的 平均 性 能 估计 指标 显著 高 于 模型 “cv. .v3”。 由 于 好 的 


模型 对 应 较 低 的 NMSE 值 ， 所 以 该 模型 的 性 能 比 模型 “ev. rf. v3" 22, BS (“ 


相反 。 


-") 的 含义 


从 输出 结果 可 以 确认 ， 随 机 森林 不 同 版 本 之 间 的 差异 在 统计 上 通常 不 显著 。 与 其 他 模型 相 


比 ， 在 大 部 分 情况 下 ， 随 机 森林 模型 有 显著 的 优势 。 


可 以 对 在 其 他 海藻 上 有 最 优 性 能 的 模型 进行 如 上 类 似 的 分 析 ， 只 要 在 函数 compAnalysis( ) 


的 参数 against 和 datasets 上 取 不 同 的 值 即 可 。 
模型 选择 和 模型 评价 的 参考 文献 


在 不 同 的 模型 间 进 行 比较 和 选择 一 直 是 许多 研究 的 主题 。 其 中 ,我 们 建议 参考 Dietterich 


(1998)、Provost 等 (1998)、Nemenyi (1969) 和 Demsar (2006) 的 书 。 


关于 组 合 学 习 方 法 ， 也 有 大 量 的 文献 。 我 们 重点 推荐 (Breiman, 1996) 关于 bagging 的 书 ， 
(Freund and Shapire, 1996; Shapire, 1990) 关于 boosting 的 书 。Dietterich (2000) 是 一 篇 很 好 的 


关于 这 些 主题 的 一 个 综述 。 


84 
a 


90 
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2.8 预测 7 类 海藻 的 频率 


本 节 将 学 习 如 何 给 出 7 类 海藻 140 个 测试 样本 的 频率 预测 值 。2. 7 节 描 述 了 如 何 选择 预测 值 
的 最 佳 模 型 ， 给 出 了 通过 交叉 验证 实验 过 程 来 得 到 7 个 预测 任务 的 预测 模型 的 无 偏 NMSE 估计 
方法 。 

本 章 数据 挖掘 案例 的 主要 目的 是 得 到 140 个 水 样 的 7 个 海藻 的 频率 值 预 测 。 每 一 个 预测 任务 
都 采用 交叉 验证 过 程 给 出 的 最 佳 模型 进行 预测 ， 这 个 最 佳 模型 将 是 2.7 节 中 调用 函数 estScores ( ) 
所 显示 的 模型 之 一 ， 也 就 是 从 模型 “ev. rh v3", “ev. rf v2", “ev. rf. vl” BE “cv. rpart. V3” 中 选 
择 最 佳 的 。 

下 面 应 用 所 有 可 得 的 训练 数据 来 构建 模型 ， 并 将 得 到 的 模型 应 用 到 测试 数据 集 。 注 意 ， 为 了 
简单 ， 在 构建 回归 树 时 ,采用 近邻 填补 法 填充 数据 框 clean. algae 的 NA 值 。 这 样 就 避免 回归 树 
采用 它 自身 的 缺失 值 处 理 方法 。 随 机 森林 本 身 没有 缺失 值 处 理 方 法 ， 因 此 把 数据 框 clean. algae 作 
为 它 的 训练 集 数据 。 下 面 的 代码 可 以 同时 获得 所 有 7 个 模型 : 


> bestModelsNames <- sapply(bestScores(res.all), 

+ function(x) x[{nmse','system']) 
> learners <- ¢(rf='randomForest',rpart='rpartXse') 

> funcs <- learners [sapply(strsplit (bestModelsNames,'\\.'), 


+ function(x) x[2])] 
> parSetts <- lapply(bestModelsNanes, 
+ function(x) getVariant (x,res.all)@pars) 


> bestModels <- list() 
> for(a in 1:7) { 


+ form <- as. formula(paste (names (clean.algae) [11t+a],'~ .')) 

+  bestModels[[a]] <- do.cail(funcs [a], 

+ c(list (form, clean.algae[,c(1:11,11+a)]),parSetts[[a]])) 
+} 


上 面 的 代码 中 得 到 了 一 个 向 量 ， 其 元 素 为 每 一 个 预测 任务 的 最 优 模型 。 可 以 得 到 保存 最 优 
模型 向 量 funes 中 的 相应 最 优 模型 的 R ARA. AT A tt HAE strsplit( ) 来 提取 模型 的 名 称 ， 这 
一 步骤 需要 用 到 复杂 的 函数 复合 。 为 了 理解 整个 过 程 ， 可 以 把 以 上 获取 函数 名 的 这 个 函数 复合 
分 开 来 执行 。 每 一 个 最 优 模型 的 参数 赋 给 列表 parSetis, PRIX getVariant( ) 给 出 相应 给 定名 称 的 
模型 ， 这 个 函数 的 返回 〈 对 象 ) 值 是 模型 类 对 象 。 这 些 对 象 有 不 同 的 “属性 ”， 其 中 一 -个 是 名 为 
pars 的 属性 ， 它 包含 模型 参数 列表 。 对 象 的 属性 可 以 用 的 操作 符 “@ ”来 访问 。 最 后 ， 得 到 最 
优 模 型 并 把 它们 赋 给 列表 bestModels。 对 于 每 一 个 海藻 ， 如 前 面 一 样 构建 公式 ， 然 后 通过 函数 
do. call( ) 调用 适当 设置 的 相应 的 R K. RE do. call( ) 可 以 调用 任何 函数 ， 它 的 第 一 个 参数 
是 作为 字符 串 的 函数 名 ， 第 二 个 参数 是 包含 调用 函数 所 需 参 数 的 一 个 列表 。 执 行 do. call( ) 函数 
后 ， 得 到 预测 相应 7 个 海藻 类 频率 的 最 优 模型 ， 然 后 就 可 以 应 用 这 些 模 型 对 测试 集 进行 预测 ” 。 

本 书 提供 的 R 添加 包 的 数据 框 test algae 含有 140 个 测试 水 样 ， 这 个 测试 集中 也 含有 缺失 值 。 
因此 ， 第 一 步 是 用 前 面 的 方法 来 填补 缺失 值 。 首 先 尝试 对 测试 集 数据 框 应 用 函数 knnImputation( ) 
来 填补 缺失 值 ， 该 方法 可 行 ， 但 问题 是 这 里 有 些 违背 预测 模型 的 黄金 法 则 “不 要 应 用 测试 集中 
的 任何 信息 来 建立 预测 模型 ” 。 因 此 ， 如 果 直 接 在 测试 集 上 应 用 knnImputation( ) 函数 ， 它 将 应 
用 测试 集 数据 寻找 10 个 最 近邻 值 ， 并 以 此 来 填补 缺失 值 。 应 用 目标 变量 信息 来 建立 模型 是 绝对 
错误 的 ， 尽 管 我 们 没有 犯 该 错误 ， 但 是 可 以 避免 应 用 测试 集 数 据 来 填补 缺失 值 。 方 法 是 应 用 训练 
集 数据 中 的 10 个 最 近邻 元 素来 填补 测试 集中 的 缺失 值 。 这 样 就 更 加 贴 合 实际 ， 也 更 正确 。 实 际 








O 警告 : 如 果 打 印 对 象 bestModels， 输 出 结果 可 能 充满 整个 屏幕 。 
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上 ， 我 们 可 能 是 依次 获取 水 样 ， 一 次 得 到 一 个 水 样 。 函 数 knnImputation( ) 有 一 个 特殊 的 参数 ， 
可 以 用 训练 集 数据 来 填补 测试 集中 的 缺失 值 。 用 法 如 下 : 


> clean.test.algae <- knnImputation(test.algae, k = 10, distData = algae[， 91 
+ 1:11]) ? 
可 以 设置 函数 knlmputation( ) 的 参数 distData 来 指定 特定 的 数据 集 ， 从 该 数据 集中 找到 测 一 
试 集 数据 框 test algae 中 有 缺失 数据 案例 的 10 个 最 近邻 值 。 注 意 ， 由 于 测试 数据 集 没 有 目标 变量 
的 信息 ， 因 此 在 数据 集 algae 中 忽略 了 目标 变量 。 
下 面 就 可 以 获取 整个 测试 数据 集 的 预测 值 矩 阵 ， 代 码 如 下 : 
> preds <- matrix(ncol=7,nrow=140) 
> for(i in 1:nrow(clean.test.algae)) 
+ preds[i,] <- sapply(1:7, 
+ function (x) 
+ predict (bestModels[[x]],clean.test.algae[i,]) 
+ ) 
在 上 面 的 简单 代码 中 ， 需 要 的 7 x 140 个 预测 值 存 储 在 矩阵 preds 中 。 在 这 个 预测 问题 中 ， 由 
于 测试 集 目标 变量 值 实际 上 是 已 知 的 ， 所 以 可 以 把 预测 值 和 真实 值 进行 比较 ， 据 此 可 以 评价 预 
测 结 果 的 质量 。 测 试 集 数据 的 真实 值 在 本 书 R 添加 包 的 数据 框 algae. sols 中 。 下 面 的 代码 计算 模 
型 的 NMSE 值 : 
> avg.preds <- apply(algae[, 12:18],2,mean) 
> apply( ((algae.sols-preds) “2), 2,mean) / 
+ apply( (scale(algae.sols,avg.preds,F)~2),2,mean) 
al a2 a3 a4 a5 a6 a7 
0.4650380 0.8743948 0.7798143 0.7329075 0.7308526 0.8281238 1.0000000 
首先 得 到 计算 NMSE 值 时 需要 用 到 的 基准 模型 的 预测 值 ， 这 里 是 目标 变量 平均 值 的 预测 。 基 
准 预 测 由 一 行 代码 完 成 ， 它 初 看 起 来 有 点 复杂 ,一 旦 你 理解 了 该 代码 ， 你 将 惊异 它 的 简洁 性 。 范 
数 scale( ) 用 来 标准 化 数据 集 ， 如 果 第 三 个 参数 不 是 FALSE， 它 从 第 一 个 参数 中 减 去 第 二 个 参 
数 ， 然 后 除 以 第 三 个 参数 ， 如 上 面 的 代码 所 示 。 在 上 面 的 例子 中 ,我 们 用 该 函数 从 矩阵 数据 的 每 
一 行 中 减 去 一 个 向 量 ( 即 所 有 7 个 藻类 的 平均 目标 变量 值 ) 。 
得 到 的 结果 和 前 面 交叉 验证 的 估计 结果 相 一 致 。 它 也 再 次 确认 很 难得 到 海藻 7 的 较 好 预测 ， 
而 其 他 海藻 的 估计 结果 则 相对 较 好 ， 海 藻 1 的 估计 结果 最 佳 。 
总 之 ， 通 过 适当 的 模型 选择 过 程 ， 就 可 以 得 到 这 些 预 测 问题 的 恰当 的 分 数 。 [93 | 


2.9 小 结 


作为 本 书 的 第 一 个 学 习 案例 ， 本 章 主 要 目的 是 让 读者 熟悉 R 软件 。 据 此 ， 从 数据 挖掘 的 标 
准 而 言 ， 这 里 选 了 一 个 较 小 的 问题 。 本 章 描述 了 如 何在 R 中 进行 一 些 最 基本 的 数据 分 析 任 务 。 

如 果 你 要 了 解 基 于 本 章 数 据 的 国际 数据 分 析 比 赛 的 内 容 ， 可 以 浏览 比赛 的 网 站 *， 或 者 阅读 
一 些 有 关 获 奖 答案 的 文章 (Bontempi et al. ，1999; Chan, 1999; Devogelaere et al. , 1999; Torgo, 
1999b) ， 然 后 比较 文章 作者 所 用 的 数据 分 析 策 略 。 

就 数据 挖掘 而 言 ， 本 案例 描述 了 下 列 内 容 ; 

。 数据 可 视 化 

© 描述 性 统计 分 析 





© htp: //www. erudit. de/erudit/competitions/ic-qq/. 
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o 处 理 缺 失 值 的 策略 
。 回归 分 析 
。 回归 分 析 的 评价 指标 
。 多 元 线性 回归 
。 回归 树 
。 通过 k 折 交互 验证 来 进行 模型 选择 和 比较 
。 模型 组 合 和 随机 森林 
经 过 上 面 的 学 习 ， 希 望 读者 熟悉 交互 式 应 用 R 的 方法 ， 熟悉 R 的 一 些 特性 。 也 就 是 说 ， 应 
该 学 习 下 列 R 的 技能 : 
。 读 人 文本 数据 文件 
© 如 何 得 到 数据 集 的 描述 性 统计 量 
。 基本 的 数据 可 视 化 方法 
。 如 何 处 理 有 缺失 值 的 数据 
es 如何 构建 回归 模型 
e 如 何 应 用 模型 得 到 测试 集 的 预测 值 
| 94 | 本 书 接 下 来 的 案例 研究 将 给 出 上 面 更 多 的 细节 和 数据 挖掘 技巧 。 


| 第 3 章 


Data Mining with R: Leaming with Case Studies 


预测 股票 市 场 收益 


本 书 的 第 二 个 案例 是 对 数据 挖掘 技术 更 深 一 层 的 使 用 。 我 们 将 分 析 把 数据 挖掘 工具 和 技术 
应 用 到 具体 商业 问题 中 所 面临 的 困难 。 这 里 以 建立 自动 股票 交易 系统 这 一 具体 问题 为 例 。 基 于 
股票 的 每 日 交易 数据 ， 首 先 建立 预测 模型 ， 然 后 据 此 分 析 如 何 建立 股票 交易 系统 。 我 们 的 目标 是 
预测 S&P 500 (标准 普尔 500) 股票 指数 的 未 来 收益 ， 为 此 首先 建立 了 几 个 预测 模型 ， 然 后 这 些 
模型 结合 给 定 的 交易 策略 产生 市 场 上 的 交易 决策 ( 即 买卖 信号 ) 。 本 章 主要 讲解 几 个 新 的 数据 挖 
HAA, EAE: 1) 如 何 使 用 R 来 分 析 存 储 在 数据 库 中 的 数据 ; 2) 如 何 对 具有 时 间 顺 序 的 观 
测 值 (即时 间 序 列 ) 进行 预测 ; 3) 把 模型 预测 结果 转化 为 现实 应 用 中 的 决策 和 行动 。 


3.1 问题 描述 与 目标 


对 数据 挖掘 而 言 股票 市 场 交 易 是 个 具有 巨大 潜力 的 应 用 领域 。 事 实 上 ， 由 于 大 量 历史 数据 
的 存在 ， 人 工 对 这 些 数据 进行 检测 是 很 困难 的 ， 而 数据 挖掘 技术 对 大 数据 有 先天 的 优势 。 另 一 方 
面 ， 有 学 者 声称 ， 市 场 在 价格 调整 上 适应 之 快 ， 以 至 于 根本 没有 空间 可 以 得 到 稳定 的 收益 。 这 就 
是 有 名 的 有 效 市 场 假设 。 这 个 理论 先后 被 一 些 更 宽松 的 版 本 所 取代 ， 即 由 于 短暂 的 市 场 无 效 ， 市 
场 还 是 有 一 些 交 易 机 会 空间 的 。 

股票 交易 的 总 体 目标 是 维持 一 个 基于 买卖 订单 的 股票 组 合 。 长 期 目标 就 是 从 这 些 股 票 交易 
中 获取 尽 可 能 多 的 利润 。 本 章 对 股票 组 合 简化 ， 只 “交易 ”一 只 单一 的 证 券 ， 这 里 采用 股票 市 
场 指数 一 一 标准 普尔 指数 。 对 于 给 定 的 证 券 和 初始 资金 ， 我 们 将 尝试 通过 交易 行为 ( 买 人 、 卖 
出 、 持 有 ) ， 在 未 来 一 段 测试 期 使 利润 最 大 化 。 应 用 数据 挖掘 技术 得 到 结果 给 出 信号 ， 然 后 据 此 
作为 决策 的 基础 来 制定 交易 策略 。 在 该 过 程 中 ， 我 们 应 用 标准 普尔 500 指数 的 历史 数据 来 预测 未 
来 的 指数 变化 。 因 此 我 们 的 预测 模型 将 包含 进 一 个 交易 系统 中 ， 该 交易 系统 应 用 模型 的 预测 结 
果 来 生成 决策 。 总 体 的 评估 标准 就 是 该 交易 系统 的 性 能 ， 即 该 交易 系统 的 交易 所 产生 的 利润 或 
者 损失 ,以 及 对 投资 者 有 意义 的 一 些 其 他 统计 指标 。 因 此 ， 我 们 的 主要 评价 指标 是 应 用 数据 挖掘 
过 程 发 现 的 知识 来 进行 交易 所 产生 的 结果 ， 而 不 是 在 该 过 程 中 所 开发 的 模型 的 预测 准确 性 。 


3.2 可 用 的 数据 


在 我 们 的 案例 中 将 关注 交易 标准 普尔 500 指数 。 这 个 指数 的 日 常数 据 在 很 多 地 方 都 可 以 获 
得 ， 比 如 Yahoo 财经 网 站 e 。 

我 们 要 用 到 的 数据 可 以 在 本 书 的 添加 包 中 得 到 。 同 时 ， 为 了 说 明 R 的 功能 ,我 们 会 给 出 获 
取 该 数据 的 其 他 方式 。 另 外 ， 这 些 获 取 数 据 的 方式 可 以 让 你 把 本 章 学 到 的 知识 应 用 到 最 近 的 数 
据 中 ， 而 不 是 仅仅 限于 截止 本 书写 作 时 打包 的 数据 。 

为 了 通过 本 书 的 R 程序 包 得 到 这 些 数据 ， 可 以 在 R 中 输入 : 





© http://finance. yahoo. com. 
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条 指 


> library (DMwR) 
> data(GSPC) 


只 有 先前 没有 在 当前 的 R 会 话 中 执行 第 一 条 指令 的 情况 下 ， 第 一 条 指令 才 需 要 输入 。 第 二 
令 载 人 一 个 GSPC OHR, AIRE xts 类 的 。 我 们 将 在 3. 2. 1 节 讲 解 xts KHR. ME, R 


要 把 它 作为 一 个 矩阵 或 者 数据 框 来 操作 即 可 《比如 head( GSPC) ) 。 


在 本 书 的 网 站 中， 可 以 找到 两 种 格式 的 数据 。 第 一 种 是 逗号 分 隔 值 (Comma Separated 


Value, CSV) Xft, 它 可 以 被 读 到 R 中 (如 第 2 章 所 述 )。 另 一 种 格式 是 MySQL 数据 库 导出 文 


件 ， 
格式 


可 以 用 它 在 MySQL 中 生成 一 个 存放 S&P 500 的 数据 库 。 我 们 将 说 明 如 何在 R 中 导入 这 两 种 
的 数据 。 具 体 采 用 哪 种 格式 的 数据 ， 完 全 取决 于 你 自己 ,或 者 你 也 可 以 采用 最 简单 的 方 


式 一 一 直接 应 用 本 书 提供 的 R 添加 包 中 的 数据 。 本 章 的 其 他 部 分 (导入 数据 之 后 的 分 析 部 分 ) 


与 你 


所 应 用 的 存储 数据 的 方式 无 关 。 
为 了 完整 ， 我 们 也 给 出 了 另 一 种 将 数据 读 到 R 中 的 方法 ， 即 直接 从 数据 网 站 上 下 载 需 要 的 数 


据 。 注 意 ， 如 果 选 择 这 种 方式 ， 那 么 你 所 应 用 的 数据 集会 比 本 章 中 的 数据 集 大 很 多 。 


3. 2. 


不 管 采 用 哪 种 方式 获取 数据 ， 股 票 的 日 交易 数据 应 该 包括 下 面 几 个 属性 : 
。 交易 日 期 

。 当日 开盘 价 

。 当日 最 高 价 

当日 最 低 价 

当日 收盘 价 

当日 成 交 量 

当日 调整 后 的 收盘 价 9 


1 在 R 中 处 理 与 时 间 有 关 的 数据 


这 个 案例 中 用 到 的 数据 和 时 间 有 关 ， 即 每 个 观测 值 有 一 个 时 间 标 签 。 该 类 数据 常 称 为 时 间 
序列 数据 。 由 于 每 个 观测 值 都 有 一 个 给 定 的 时 间 标 签 ， 所 以 时 间 序 列 数据 的 重要 特征 是 观测 值 


之 间 


这 里 


的 先后 顺序 很 重要 。 一 般 来 说 ， 时 间 序 列 就 是 随机 变量 了 的 一 组 有 序 的 观测 值 ， 即 
yy2 Via Ve Vest Nn (3-1) 
y, 是 时 间 序 列 变量 了 在 时 间 上 的 观测 值 。 


时 间 序 列 分 析 的 主要 目的 根据 变量 过 去 的 观测 值 y, ，y, es Vao n 来 构造 一 个 模型 ， 据 
此 可 以 对 时 间 序 列 未 来 的 取 值 进行 预测 ， 即 预测 y,,, ，…，y,。 

在 本 章 的 股票 数据 案例 中 ， 由 于 我 们 在 同一 个 时 间 点 上 观测 了 多 个 变量 ， 它 们 各 自 是 Open, 
High, Low, Close, Volume 和 AdjClose ®, ， 所 以 该 类 型 的 时 间 序 列 常 称 为 多 元 时 间 序 列 。 

R 有 多 个 添加 包 用 于 对 这 类 数据 进行 分 析 ， 这 些 包 提供 了 特殊 的 类 来 存储 不 同类 型 的 时 间 序 

列 数据 。 而 且 ，R 有 许多 函数 用 于 这 些 不 同类 型 的 时 间 序 列 数据 ， 例 如 特殊 的 绘图 函数 等 。 

对 于 处 理 时 间 序 列 数 据 ，R 中 最 灵活 的 添加 包 有 zoo (Zeileis and Grothendieck, 2005) 和 xts 
(Ryan and Ulrich ，2010) 。 这 两 个 包 提 供 类 似 的 功能 ， 但 是 xts 包 提 供 了 用 ISO 8601 时 间 字 符 串 
来 获取 数据 子 集 等 更 多 的 方法 。 在 技术 上 ，xts 类 扩充 了 zoo 类 ， 每 个 xts 类 都 同时 是 一 个 zoo HK, 


@0 0 DO 


在 我 们 下 载 行情 数据 的 雅虎 财经 网 站 ， 标 准 普尔 500 指数 的 股票 编号 为 GSPC。 

http; //www. liaad. up. pt/ ~ ltorgo/DataMiningWithR. 

该 价格 是 调整 了 股票 分 割 、 分 红 、 配 股 等 之 后 的 价格 。 

事实 上 ， 更 严格 地 说 ， 这 里 应 该 只 有 两 个 时 间 序 列 〈 价 格 Price 和 成 交 量 Volume) ， 因 为 所 有 的 报价 是 同一 个 变 
量 (价格 Price) 在 一 天 中 不 同时 间 的 取样 。 
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因此 zoo 类 对 象 的 所 有 方法 都 可 以 应 用 到 xts 类 对 象 。 本 章 的 分 析 主 要 是 应 用 xts 对 象 。 注 意 ，zoo 
和 xts 都 是 R 的 附加 包 ， 它 们 在 R 的 基本 安装 中 是 没有 的 ， 在 应 用 之 前 需要 先 下 载 并 安装 它们 
(参见 1.2.1 45). 

下 面 举 例 说 明 如 何 创建 和 应 用 xts 对 象 。 

> library(xts) 

> x1 <- xts(rnorm(100), seq(as.POSIXct ("2000-01-01"), len = 100, 

+ by = "day")) 

> x1[1:5] 

[,1] 

2000-01-01 0.82029230 

2000-01-02 0.99165376 

2000-01-03 0.05829894 

2000-01-04 -0.01566194 

2000-01-05 2.02990349 


> x2 <- xts(rnorm(100), seq(as.POSIXct ("2000-01-01 13:00"), 
+ len = 100, by = "min")) 
> x2[1:4] 


[,4] 
2000-01-01 13:00:00 1.5638390 
2000-01-01 13:01:00 0.7876171 
2000-01-01 13:02:00 1.0860185 
2000-01-01 13:03:00 1.2332406 


> x3 <- xts(rnorm(3), as.Date(c("2005-01-01", "2005-01-10", 
+ "2005-01-12"))) 
> x3 


(,1] 
2005-01-01 -0.6733936 
2005-01-10 -0.7392344 
2005-01-12 -1.2165554 


函数 xts( ) 的 第 一 个 参数 接收 时 间 序 列 数据 。 该 数据 可 以 是 一 个 向 量 ， 或 者 如 果 时 间 序 列 是 
多 元 时 间 序列 ， 该 参数 也 可 以 是 一 个 矩阵 ? 。 在 第 二 种 情况 下 ， 撼 阵 的 每 一 列 解释 为 一 个 变量 在 
不 同时 间 点 〈 即 每 一 行 ) 上 的 抽样 值 。 第 二 个 参数 是 时 间 标 签 ， 它 可 以 是 R 时 间 类 的 任何 一 种 
形式 。 在 上 面 的 示例 中 ， 用 到 了 R 表示 时 间 信 息 的 两 个 最 常用 的 时 间 类 : POSIXct 类 (或 POSIXIt 
类 ) 和 Date 类 。 有 许多 和 这 些 类 相关 联 的 函数 可 以 用 来 操作 这 些 类 中 的 时 间 信 息 ， 详 细 参 见 R 的 
帮助 文档 。 例 如 ， 在 第 1 章 中 我 们 用 sq) 函数 来 生成 一 系列 数 ， 这 里 我 们 用 该 函数 “生成 一 个 基 
于 时 间 的 序列 。 

在 上 面 的 例子 中 ， 如 果 去 掉 时 间 标 签 ， 那 么 这 些 时 间 序 列 对 象 可 以 像 “正常 ”对 象 一 样 进 
行 索 引 (标准 的 向 量子 集 ) 。 我 们 经 常 需要 基于 与 时 间 有 关 的 条 件 来 获取 这 些 序列 的 子 集 。 采 用 
xts 对 象 可 以 有 多 种 方式 实现 它 ， 举 例如 下 : 

> x1i[as.POSIXct ("2000-01-04")] 


[,1] 
2000-01-04 -0.01566194 


O 这 意味 着 不 能 在 xts 中 有 像 数据 框 那样 的 混合 类 型 数据 。 
© ”事实 上 ， 这 里 是 应 用 于 类 POSIXt 的 泛 型 函数 seq( ) 的 一 个 特殊 方法 。 可 以 输入 “?seq. POSIXt” 获 得 该 函数 的 更 
多 信息 。 
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> x1["2000-01-05"] 


[,4] 
2000-01-05 2.029903 


> x1["20000105"] 


[,1] 
2000-01-05 2.029903 


> x1["2000-04"] 


[,1] 
2000-04-01 01:00:00 0.2379293 
2000-04-02 01:00:00 -0.1005608 
2000-04-03 01:00:00 1.2982820 
2000-04-04 01:00:00 -0.1454789 
2000-04-05 01:00:00 1.0436033 
2000-04-06 01:00:00 -0.3782062 
2000-04-07 01:00:00 -1.4501869 
2000-04-08 01:00:00 -1.4123785 
2000-04-09 01:00:00 0.7864352 


> x1["2000-03-27/"] 


[,1] 
2000-03-27 01:00:00 0.10430346 
2000-03-28 01:00:00 -0.53476341 
2000-03-29 01:00:00 0.96020129 
2000-03-30 01:00:00 0.01450541 
2000-03-31 01:00:00 -0.29507179 
2000-04-01 01:00:00 0.23792935 
2000-04-02 01:00:00 -0.10056077 
2000-04-03 01:00:00 1.29828201 
2000-04-04 01:00:00 -0.14547894 
2000-04-05 01:00:00 1.04360327 
2000-04-06 01:00:00 -0.37820617 
2000-04-07 01:00:00 -1.45018695 
2000-04-08 01:00:00 -1.41237847 
2000-04-09 01:00:00 . 0.78643516 


> x1["2000-02-26/2000-03-03"] 


[,1] 
2000-02-26 1.77472194 
2000-02-27 -0.49498043 
2000-02-28 0.78994304 
2000-02-29 0.21743473 
2000-03-01 0.54130752 
2000-03-02 -0.02972957 
2000-03-03 0.49330270 


> x1["/20000103"] 


[,1] 
2000-01-01 0.82029230 
2000-01-02 0.99165376 
2000-01-03 0.05829894 
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第 一 个 命令 中 的 参数 是 一 个 具体 的 时 间 值 对 象 ， 它 和 创建 xl 对 象 的 函数 的 第 二 个 参数 的 对 象 
的 类 是 一 样 的 。 其 他 的 例子 展示 了 xts 包 中 强大 的 子 集 索 引 功能 ， 它 是 xts 包 优 于 只 中 的 其 他 时 间 序 
列 包 的 地 方 之 一 。 这 里 的 子 集 索 引 把 时 间 标 签 作为 字符 串 ， 其 一 般 格式 为 : CCYY -MM -DD HH: 
MM: SS[.s]。 上 述 格式 的 不 同 段 之 间 的 分 隔 符 可 以 省 略 ， 该 格式 的 某 些 部 分 可 以 忽略 以 用 于 表示 
一 个 时 间 标 签 集合 。 另 外 , “/” 符 号 可 以 用 于 上 述 格式 的 开始 或 结尾 ， 用 以 表示 某 个 时 间 段 。 
“/” 符 号 在 结尾 表示 以 该 时 间 开 始 的 时 间 段 ,“/ ”符号 在 开始 表示 以 该 时 间 结 束 的 时 间 段 。 


多 元 时 间 序 列 可 以 用 类 似 的 方式 建立 ， 例 如 : 


> mts.vals, <- matrix(round(rnorm(25) ,2),5,5) 
> colnames(mts.vals) <- paste('ts', 1:5, sep="') 


> mts <- xts(mts.vals,as.POSIXct (c('2003-01-01','2003-01-04', 
12003-01-05' ,'2003-01-06' ,'2003-02-16'))) 


+ 
> mts 


tsi 
2003-01-01 0.96 
2003-01-04 0.10 
2003-01-05 0.38 
2003-01-06 0.73 
2003-02-16 2.68 


ts2 ts3 ts4 ts5 
-0.16 -1.03 0.17 0.62 
1.64 -0.83 -0.55 0.49 
0.03 -0.09 -0.64 1.37 
0.98 -0.66 0.09 -0.89 
0.10 1.44 1.37 -1.37 


> mts["2003-01",c("ts2", "ts5")] 


ts2 tsb 
2003-01-01 -0.16 0.62 
2003-01-04 1.64 0.49 
2003-01-05 0.03 1.37 
2003-01-06 0.98 -0.89 


PAIK index() 和 time() 可 以 用 来 “获取 ”任意 xts 对 象 的 时 间 标 签 信息 ，coredata( ) 函数 


用 来 获取 时 间 序 列 的 观测 值 。 例 如 ， 


> index (mts) 


[1] "2003-01-01 WET" "2003-01-04 WET" "2003-01-05 WET" "2003-01-06 WET" 


[5] "2003-02-16 WET" 
> coredata(nts) 


ts1 ts2 ts3 ts4 
[1,] 0.96 -0.16 -1.03 0.17 
[2,] 0.10 1.64 -0.83 -0.55 
[3,] 0.38 0.03 -0.09 -0.64 
[4,] 0.7 
[5,] 2 


-68 0.10 1.44 1.37 


ts5 
0.62 
0.49 
1.37 


3 0.98 -0.66 0.09 -0.89 
-1.37 


总 之 ，xts 对 象 可 以 用 于 存储 带 有 不 规则 时 间 标 签 的 多 元 时 间 序 列 ， 它 足以 用 来 存储 股票 交 


易 数 据 ， 并 能 提供 强大 的 子 集 索引 功能 。 
3.2.2 M CSV 文件 读 取 数 据 


如 前 文 所 述 ， 本 书 网 站 有 本 章 案例 的 各 种 数据 格式 。 如 果 你 决定 用 CSV 数据 文件 ， 需 要 先 
下 载 该 数据 文件 ， 它 的 前 面 几 行 为 : 


"Index" "Open" "High" "Low" "Close" "Volume" "AdjClose" 


1970-01-02 92.06 93.54 91.79 93 
1970-01-05 93 94.25 92.53 93.46 11490000 93.46 
1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 
1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 


8050000 93 
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1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.4 9380000 92.4 
1970-01-12 92.4. 92.67 91.2 91.7 8900000 91.7 


假如 你 已 经 下 载 了 该 文件 ， 并 且 用 文件 名 “sp500. csv” 保存 在 当前 运行 R 的 目录 中 ， 那 么 
可 以 把 数据 载 人 到 R 中 并 用 之 创建 一 个 xts 对 象 ， 代 码 如 下 所 示 : 


> GSPC <- as.xts(read.zoo("sp500.csv", header = T)) 


假如 CSV 数据 文件 的 第 一 列 为 时 间 标 签 ， 则 zoo 里 的 read. zoo( ) 函数 可 以 读 取 该 CSV 数 
据 文件 并 把 数据 转换 为 zoo XR, PHM as. xts( ) 把 读 取 的 结果 对 象 转换 为 xts 对 象 。 
3.2.3 从 网 站 上 获取 数据 

获取 S&P 500 指数 的 另 一 种 方法 是 使 用 Yahoo 财经 网 站 提供 的 免费 服务 ， 它 允许 以 CSV 数据 
文件 格式 下 载 股票 报价 。R 的 tseries 添加 包 A PAR get. hist. quote( ) ， 该 函数 可 以 用 来 下 载 报价 
数据 到 一 个 zoo 对 象 。 下 面 就 是 一 个 使 用 该 函数 获取 S&P 500 报价 的 例子 。 


> library(tseries) 
> GSPC <- as.xts(get.hist.quote("“GSPC",start="1970-01-02", 
quote=c("Qpen", "High", "Low", "Close", "Volume", "AdjClose"))) 


> head(GSPC) 


Open High Low Close Volume AdjClose 
1970-01-02 92.06 93.54 91.79 93.00 8050000 93.00 
1970-01-05 93.00 94.25 92.53 93.46 11490000 93.46 
1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 
1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 
1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.40 9380000 92.40 
由 于 函数 get. hist. quote( ) 返回 一 个 zoo 类 的 对 象 ， 所 以 我 们 用 函数 as. xts( ) 把 该 对 象 转换 
为 一 个 xts 对 象 。 注 意 ， 如 果 运 行 该 命令 ， 我 们 将 得 到 比 本 书 R 包 中 所 提供 的 数据 更 大 的 一 个 数 
据 集 。 如 果 想 确保 本 章 后 面 的 命令 得 到 和 本 书 中 同样 的 结果 ， 应 该 应 用 以 下 的 代码 ; 


> GSPC <- as.xts(get.hist.quote("“GSPC", 
start="1970-01-02" ,end='2009-09-15', 
quote=c("0pen”, "High", "Low", "Close","Volume", "AdjClose"))) 
这 里 ,“2009 -09 -15” 是 本 书 添加 包 中 的 GSPC 对 象 的 最 后 一 个 记录 交易 日 期 。 
另外 一 种 通过 网 络 获取 数据 的 方法 (我 们 后 面 会 看 到 ,这 不 是 唯一 的 方法 ) 是 应 用 
quantmod (Ryan, 2009) 包 中 的 函数 getSymbols( ) 。quantmod 包 是 R 的 添加 包 ， 在 应 用 之 前 确 
保 该 包 已 经 安装 。 该 包 提 供 了 与 分 析 金 融 数 据 有 关 的 功能 ， 本 章 将 应 用 这 些 功能 。 函 数 
getSymbols( ) 和 该 包 中 的 其 他 函数 一 起 提供 了 获取 不 同 来 源 交 易 数据 的 相对 简单 、 但 是 功能 强 
大 的 方法 。 下 面 举例 说 明 该 函数 的 用 法 : 


> library (quantmod) 
> getSymbols("~GSPC") 





O ”你 可 能 要 问 这 里 为 什么 不 调用 函数 library( ) 来 载 人 添加 包 zoo。 原 因 是 xts 添加 包 依赖 于 添加 包 zoo， 当 载 人 xts 
包 时 就 同时 载 人 了 zoo 包 。 
日 需要 首先 安装 该 添加 包 。 
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函数 getSymbols( ) 的 第 一 个 参数 是 一 个 符号 集合 ， 该 函数 将 从 不 同 网 站 或 本 地 数据 库 中 提 
取 这 些 符号 所 对 应 的 交易 数据 ， 然 后 默认 返回 与 符号 同名 的 xts 对 象 ”。 这 些 操作 都 是 在 R 工作 
环境 下 自动 完成 的 。 你 可 以 证 实 返 回 的 对 象 数据 与 本 书包 中 数据 的 时 间 不 是 完全 相同 ， 列 的 名 
称 也 有 不 同 。 可 以 通过 下 列 代码 修正 : 

> getSymbols("“GSPC", from = "1970-01-01", to = "2009-09-15") 

> colnames(GSPC) <- c("Open", "High", "Low", "Close", "Volume", 

+ "AdjClose") 

事实 上 ， 在 quantmod 包 提 供 的 框架 中 ， 可 以 有 多 个 符号 来 自 不 同 的 相关 数据 源 ， 每 个 都 有 
各 自 的 参数 。 这 些 设置 都 可 以 在 R 会 话 开始 时 用 函数 setSymbolsLookup( ) 来 指定 ， 如 下 所 示 : 


> > setSymbolLookup(IBN“1ist (name=! TBM , src='yahoo'), 
USDEUR=list (name='USD/EUR' , src='oanda)) 
> > getsymbole(cC TBH, "USDEUR' ) ) 


> head (IBM) 
IBM.Open IBM.High IBM.Low IBM.Close IBM.Volume IBM. Adjusted 


2007-01-03 97.18 98.40 96.26 97.27 9196800 92.01 
2007-01-04 97.25 98.79 96.88 98.31 10524500 93.00 
2007-01-05 97.60 97.95 96.91 97.42 7221300 92.16 
2007-01-08 98.50 99.50 98.35 98.90 10340000 93.56 
2007-01-09 99.08 100.33 99.07 100.07 11108200 94.66 
2007-01-10 98.50 99.05 97.93 98.89 8744800 93.55 


> head (USDEUR) 


USDEUR 

2009-01-01 0.7123 

2009-01-02 0.7159 

2009-01-03 0.7183 

2009-01-04 0.7187 

2009-01-05 0.7188 

2009-01-06 0.7271 

在 上 面 的 代码 中 ， 我 们 指定 了 两 个 符号 所 对 应 的 获取 行情 数据 的 网 站 : IBM 数 从 Yahoo 网 站 
获取 ; USDEUR (美元 和 欧元 ) 的 汇率 数据 从 Oanda 网 站 获取。 

这 些 是 通过 函数 getSymbolsLookup() 完成 的 。 在 当前 R 会 话 中 ， 当 调用 getSymbols( ) 函数 
获取 以 上 设置 的 标识 符 数据 时 ， 将 应 用 由 函数 getSymbolsLookup ( ) 所 做 的 相关 设置 。 函 数 
saveSymbolLookup( ) 和 loadSymbolLookup( ) 分 别 用 来 在 不 同 的 R 会 话 中 保存 和 载 人 这 些 设 置 。 如 
果 需 要 这 些 函 数 的 更 多 例子 和 详细 解释 ， 请 参照 R 中 这 些 函 数 的 帮助 文档 。 

3.2.4 从 MySQL 数据 库 读 取 数 据 


另 一 种 存储 数据 的 形式 是 在 MySQL 数据 库 里 。 在 本 书 的 网 站 上 ， 有 一 个 包含 SQL 语句 的 文 
件 ， 它 可 以 下 载 并 用 MySQL 来 执行 ， 从 而 上 载 S&P 500 数据 到 一 个 数据 库 表 里 。 有 关 应 用 和 创 
建 MySQL 数据 库 的 内 容 可 以 参阅 1.3 节 。 

创建 一 个 数据 库 来 存储 数据 后 ， 就 可 以 准备 执行 SQL 语句 了 。 假 设 该 文件 和 输入 的 MySQL 
命令 在 同一 个 目录 下 ， 同 时 ， 创 建 的 数据 库 名 为 Quotes。 登 录 到 MySQL, RAWA: 


mysql> use Quotes; 
mysql> source sp500.sql; 


O 需要 首先 安装 添加 包 。 
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文件 “sp500. sql” “PAY SQL 语句 将 创建 一 个 名 为 gspe 的 数据 表 ， 并 把 这 个 案例 中 用 到 的 数 
据 插 和 人 到 表 中 。 你 可 以 在 MySQL 中 执行 以 下 语句 来 确认 数据 表 已 正常 建立 : 


mysql> show tables; 


$een--------- + 
| Tables_in_Quotes | 
4-------------~----- + 
| gspe | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


1 row in set (0.00 sec) 


mysql> select * from gspc; 


最 后 一 条 SQL 语句 会 输出 大 量 数据 ， 即 标准 普尔 500 的 报价 数据 。 如 果 你 想 要 限制 输出 的 
数据 ， 你 可 以 在 以 上 命令 句 末尾 添加 limit 10, 

E R 中 有 两 种 方式 和 数据 库 进 行 通信 。 一 种 方式 是 基于 ODBC 协议 ， 另 一 种 是 基于 DBI 包 
提供 的 通用 接口 和 每 个 数据 库 管 理 系统 (DBMS) 专 有 的 包 。 

如 果 你 决定 应 用 ODBC 协议 ， 那 么 你 要 确认 可 以 应 用 该 协议 和 数据 库 通 信 ， 这 可 能 需要 在 数 
据 库 端 安装 相关 的 驱动 程序 。 在 R 端 ， 需 要 的 是 安装 RODBC 包 。 

DBI 包 实 现 了 一 系列 的 数据 库 接口 函数 ， 这 些 函 数 独立 于 实际 上 存储 数据 的 数据 库 服务 器 。 
只 需要 在 最 初 和 数据 库 建立 连接 时 指出 用 户 将 应 用 哪 一 个 通信 接口 。 当 改变 数据 库 时 ， 你 只 要 
改变 一 条 指令 即 可 (该 指令 指出 你 希望 通信 的 数据 库 ) 。 为 了 获取 这 种 独立 性 ， 用 户 需要 安装 其 
他 的 R 包 来 处 理 不 同 数据 库 的 通信 细节 。 对 于 常用 的 数据 库 ，R 有 许多 专 有 的 数据 库 包 。 这 里 ， 
为 了 和 存储 于 服务 器 上 的 MySQL 数据 库 通 信 ， 我 们 需要 RMySQL 包 (James and DebRoy, 2009), 

3.2.4.1 Æ Windows 系统 上 加 载 数 据 到 R 中 

如 果 在 Windows 系统 上 运行 R， 那 么 无 论 MySQL 数据 库 服务 器 是 在 该 台 计 算 机 上 ， 还 是 在 
另 一 台 计 算 机 上 (可 以 是 其 他 操作 系统 ) ， 从 R 连接 该 数据 库 的 最 简便 方法 是 通过 ODBC (开放 
数据 库 互 连 ) HN. ATER 中 使 用 这 个 协议 ,需要 安装 RODBC 添加 包 。 

第 一 次 使 用 ODBC 协议 连接 任何 MySQL 数据 库 前 ， 需 要 一 些 额外 的 步 又 ， 即 你 需要 在 
Windows 系统 上 安装 MySQL ODBC 驱动 程序 ， 它 称 为 “myodbe”， 可 以 从 MySQL 网 站 上 下 载 。 这 
个 步骤 只 在 第 一 次 使 用 ODBC 来 连接 MySQL 数据 库 时 需要 。 安 装 好 这 个 驱动 程序 后 ， 就 可 以 创 
建 到 MySQL 数据 库 的 连接 ， 这 个 数据 库 可 以 是 在 你 的 计算 机 上 或 者 其 他 可 以 从 网 络 中 访问 到 的 
计算 机 上 。 根 据 ODBC 协议 ,创建 的 每 个 数据 库 连 接 都 有 一 个 名 字 (根据 ODBC 的 术语 ， 该 连接 
称 为 数据 源 名 ) 。 这 个 名 字 用 来 从 R 来 访问 MySQL 数据 库 。 

在 Windows 计算 机 上 创建 一 个 ODBC 连接 ， 需 要 一 个 称 为 “ODBC 数据 源 ” 的 程序 ， 可 以 在 
Windows 系统 的 控制 面板 上 找到 该 程序 。 运 行 这 个 程序 后 ， 需 要 用 MySQL ODBC 驱动 程序 
(myodbe) 创建 一 个 新 的 用 户 数据 源 。 在 创建 数据 源 的 过 程 中 ， 有 几 个 问题 会 问 到 ， 比 如 MySQL 服 
务 器 地 址 (如 果 是 本 机 ， 则 为 localhost; 如 果 是 远程 主机 ， 则 形 如 myserver xpto. pt); 需要 建立 连 
接 的 数据 库 名 ; 还 有 该 连接 的 名 称 。 一 - 旦 完成 这 个 过 程 后 ， 就 可 以 从 R 连接 MySQL 数据 库 了 。 

以 下 R 代码 建立 了 一 个 到 Quotes 数据 库 的 连接 ， 并 且 把 S&P 500 数据 加 载 到 R。 


> library (RODBC) 

> ch <- odbcConnect ("QuotesDSN", uid="myusername", pwd="mypassword") 
> allQuotes <- sqiFetch(ch, "gspc") 

> GSPC <- xts(allQuotes[,-1],order.by=as.Date(allQuotes[,1J)) 

> head (GSPC) 


Open High Low Close Volume AdjClose 
1970-01-02 92.06 93.54 91.79 93.00 8050000 93.00 
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93.46 11490000 93.46 
92.82 11460000 92.82 
9 


1970-01-05 93.00 94.25 92.53 
81 92.13 
38 91.93 92.63 10010000 92.63 
47 91.99 
25 91.82 


1970-01-06 93.46 
1970-01-07 92.82 
1970-01-08 92.63 
1970-01-09 92.68 


-99 92.68 10670000 92.68 


93. 
93. 
93. 
93. 92.40 9380000 92.40 


> odbcClose(ch) 


加 载 RODBC 包 后 ， 用 先前 创建 的 DSN 使 用 odbcConnect() 函数 建立 与 数据 库 的 连接 。 然 
后 用 sqlFetch( ) K% ( 它 包 含 了 表格 的 所 有 行 ， 并 作为 数据 框 对 象 返回 ) 查询 数据 表 。 下 一 个 
步骤 就 是 利用 日 期 信息 和 交易 数据 从 这 个 数据 框 创建 一 个 xts 对 象 。 最 后 ， 用 odbcClose() 函数 
关闭 与 数据 库 的 连接 。 

当 使 用 特别 大 的 数据 库 时 ， 这 里 要 注意 的 是 : 如 果 查 询 产 生 的 结果 太 多 ， 以 至 于 计算 机 内 存 
存储 不 下 ， 那 么 你 就 不 得 不 用 其 他 的 策略 。 你 可 以 尝试 对 数据 进行 分 块 处 理 ， 这 需要 在 函数 
sqlFetch() 和 sqlFetchMore() 中 设置 max 参数 。 

也 可 以 考虑 应 用 其 他 方法 ， 例 如 考虑 R 中 提供 高 性 能 和 并 行 计算 功能 的 包 , EE ( Aoler et 
al. , 2010), 

3.2.4.2 Æ Linux 系统 上 加 载 数 据 

如 果 在 类 UNIX 系统 上 运行 R， 那 么 连接 MySQL 数据 库 最 容易 的 途径 是 通过 DBI 包 与 RMySQL 
包 的 结合 。 这 里 ，ODBC 协议 对 Linux 系统 也 是 可 用 的 。 有 了 RMySQL 包 后 ， 你 就 不 需要 像 应 用 
RODBC 包 那 样 的 准备 步骤 。 安 装 完 RMySQL 包 后 ， 你 就 可 以 开始 使 用 它 ， 用 法 如 下 所 示 : 


> library (DBI) 

> library (RMySQL) 

> drv <- dbDriver ("MySQL") 

> ch <- dbConnect (drv,dbname="Quotes", "myusername", "mypassword") 
> allQuotes <- dbGetQuery(ch, "select * from gspc") 

> GSPC <- xts(allQuotes[,-1] ,order. by=as.Date(allQuotes[,i])) 

> head(GSPC) 


Open High Low Close Volume AdjClose 
1970-01-02 92.06 93.54 91.79 93.00 8050000 93.00 
1970-01-05 93.00 94.25 92.53 93.46 11490000 93.46 
1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 
1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 
1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.40 9380000 92.40 


> dbDisconnect (ch) 
[1} TRUE 


> dbUnloadDriver(drv) 


加 载 包 后 ， 用 函数 dbDriver() 和 dbConnect() TFS BHR ER. FA PAR dbGetQuery 向 
数据 库 发 送 一 个 SQL 查询 ， 然 后 收 到 一 个 数据 框 结果 。 通 常情 况 下 ， 把 结果 转换 为 ds 对 象 后 ， 
用 dbDisconneet( ) 和 dbUnloadDriver( ) 关闭 数据 库 连 接 。 

另外 ， 可 以 应 用 quantmod 包 提 供 的 函数 来 应 用 MySQL 数据 库 中 的 数据 。 事 实 上 ， 可 以 把 


OQ 这 里 要 用 你 在 Windows 控制 面板 中 创建 的 数据 源 (DSN) 和 你 的 MySQL 用 户 名 和 密码 。 
© http://cran. at. r-project. org/web/views/HighPerformanceComputing. html. 
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MySQL 数据 库 作为 函数 getSmbols( ) 的 一 个 数据 源 。 示 例如 下 : 


> setSymbolLookup (GSPC=list (name='gspc', src='mysql', 

+ db.fields=c(‘Index' ,'Open' ,'High' ,'Low' ,'Close','Volume','AdjClose'), 
+ user='xpto', password='ypto' ,dbname='Quotes' ) ) 

> getSymbols('GSPC') 


[1] "espe" 


3.3 定义 预测 任务 


一 般 来 说 ， 本 章 的 目的 是 预测 S&P 500 指数 的 未 来 价格 ， 据 此 可 以 及 时 进行 交易 以 从 中 获 
利 。 有 了 分 析 目 标 后 ， 就 可 以 容易 地 定义 模型 需要 预测 的 对 象 一 一 预测 价格 时 间 序 列 的 未 来 值 。 
然而 ， 即 使 面 对 这 个 简单 的 任务 ， 我 们 也 立即 面临 几 个 问题 : 1) 采用 哪 一 个 每 日 价格 ; 2) 预 
测 未 来 哪个 时 间 。 这 些 问 题 并 不 容易 回答 ， 它 通常 取决 于 在 下 达 交 易 命令 时 如 何 应 用 预测 结果 。 
3.3.1 预测 什么 
3. 5 节 将 学 习 的 交易 策略 假设 我 们 可 以 预测 未 来 几 天 的 市 场 变化 趋势 。 如 果 这 个 预测 在 未 来 
被 验证 是 正确 的 ， 那么 基于 该 预测 下 达 的 交易 指令 将 是 获 利 的 。 
假设 从 交易 方面 看 ,我 们 认为 价格 变动 超过 p% 时 值得 交易 ( 即 获 利 超过 交易 费用 ) 。 在 这 
个 假设 下 ， 我 们 需要 预测 模型 来 预测 在 未 来 上 天 中 是 否 能 够 获得 这 个 边际 利润 5。 注 意 ， 在 这 上 
天 中 ， 实 际 上 可 以 观察 的 价格 可 能 高 于 这 个 比例 和 低 于 这 个 比例 。 这 意味 着 ， 预 测 未 来 某 个 特定 
时 间 # + 大 的 报价 可 能 不 是 最 好 的 方法 。 事 实 上 ， 我 们 需要 预测 的 是 在 未 来 上 天 中 价格 总 的 动态 变 
化 ， 并 不 是 预测 某 个 特定 时 间 的 一 个 特定 价格 。 例 如 ， 在 时 间 +k 的 收盘 价 的 变化 可 能 比 p% 低 
得 多 ,但 是 在 它 前 面 日 期 :，…，, ttk 的 价格 变化 可 能 远 远 大 于 p%。 因 此 ， 我 们 事实 上 需要 的 
是 未 来 k 天 的 总 体 价格 趋势 。 
我 们 从 报价 数据 计算 一 个 变量 ， 它 可 以 作为 未 来 天 天 的 趋势 指标 值 。 这 一 指标 值 应 与 我 们 对 
接 下 来 的 上 天 能 够 获得 pr 的 价格 变化 的 信心 相关 。 在 这 个 阶段 ， 重 要 的 是 要 注意 ， 当 我 们 提 到 
PpP% 的 变化 时 ， 它 的 意思 是 高 于 或 低 于 目前 的 价格 。 这 里 的 想法 是 ， 正 的 变化 将 导致 买 人 ， 而 负 
的 变化 将 触发 卖 出 行动 。 这 里 我 们 给 的 指标 把 趋势 作为 一 个 单一 的 值 ， 正 值 表 示 向 上 的 趋势 ， 负 
值 表示 价格 向 下 的 趋势 。 
假设 每 天 的 平均 价格 可 以 由 下 面 公式 来 近似 : 
一 C+H +L; 
P, = 3 (3-2) 
Ht, C. H, 和 工分 别 为 第 i 天 的 收盘 价 、 最 高 价 和 最 低 价 。 
BV, 代表 未 来 天 的 平均 价格 相对 今天 收盘 价 的 百分比 变化 (通常 称 为 算术 收益 ): 


k 


P., 7 Ci 
V, = toh (3-3) 
我 们 把 动态 变化 绝对 值 超过 目标 收益 p% 的 变化 进行 累加 作为 一 个 指标 变量 T: 
T,= Vi {ve V,:0 > p% Vv <-p%|} (3-4) 


指标 变量 7 用 来 找 出 在 在 天 内 ， 日 平均 价格 明显 高 于 目标 变化 的 那些 日 期 的 变化 之 和 。 大 的 
正 了 值 意味 着 有 几 天 的 日 平均 报价 高 于 今天 收盘 价 的 p% ， 这 种 情况 表明 有 潜在 的 机 会 发 出 买 人 
指令 ， 因 为 有 良好 的 预期 价格 会 上 涨 。 另 一 方面 ， 大 的 负 了 值 表明 价格 可 能 下 降 ， 可 以 进行 卖 出 


O 显然 我 们 不 希望 等 待 若干 年 才能 获得 该 边际 利润 。 
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行动 。 如 果 了 值 接近 零 ， 则 可 能 是 由 于 价格 平稳 波动 或 者 价格 涨 跌 互 现 ， 正 的 变化 和 负 的 变化 互 
相抵 消 。 
下 面 的 函数 实现 这 个 简单 的 指标 : 


> T.ind <- function(quotes, tgt.margin = 0.025, n.days = 10) { 

+ v <- apply(HLC(quotes), 1, mean) 

r <- matrix(NA, ncol = n.days, nrow = NROW(quotes)) 

for (x in 1:n.days) r[, x] <- Next(Delt(v, k = x), x) 

x <- apply(r, 1, function(x) sum(x[x > tgt.margin | x < 
-tgt.margin])) 

if (is.xts(quotes)) 
xts(x, time(quotes)) 

+ else x 


+} 

RHE (3-2), KAR EREM. KE HLC( ) 从 价格 对 象 中 提取 价格 的 最 高 价 、 
最 低 价 和 收盘 价 。 然 后 ， 计 算 未 来 n days 天 相对 当前 收盘 价 的 收益 。 函 数 next( ) 按时 间 平 移 
一 个 时 间 序 列 (向 前 或 向 后 ) 。Delt( ) 函数 可 用 于 计算 价格 序列 的 百分比 收益 或 对 数 收益 。 
Bua, T.ind() 函数 将 绝对 值 大 的 收益 相 加 ， 也 就 是 说 ， 收 益 超 过 目标 变化 收益 ， 默 认 设 置 
为 2. 5%。 

图 3-1 可 以 更 好 地 理解 指标 了 的 性 质 ， 绘 图 的 代码 如 下 : 


> candleChart (last (GSPC, "3 months"), theme = "white", TA = NULL) 

> avgPrice <- function(p) apply(HLC(p), 1, mean) 

> addAvgPrice <- newTA(FUN = avgPrice, col = 1, legend = "AvgPrice") 
> addT.ind <- newTA(FUN = T.ind, col = "red", legend = "tgtRet") 

> addAvgPrice(on = 1) 

> addT. ind() 


+e eee 十 











eS ae ae 
图 3-1 最 后 3 个 月 的 标准 普尔 500 指数 和 我 们 的 指标 线 图 


函数 candleChart( ) 绘制 股票 价格 的 KK 线 图 。K 线 图 用 一 个 彩色 的 框 和 竖 直 的 柱 条 来 代表 每 
日 报价 情况 。 柱 条 代表 当天 的 最 高 、 最 低 价 格 ， 而 框 代表 开 盘 价 和 收盘 价 。 框 的 颜色 用 来 表示 框 


78° 数据 挖掘 与 只 语言 


的 顶部 所 代表 的 价格 〈 开 盘 价 还 是 收盘 价 ) ， 即 在 一 天 中 价格 是 下 降 (图 3-1 中 为 黑色 ， 而 交互 
式 及 输出 的 图 形 为 橘 色 ) 还 是 上 升 (图 3-1 中 为 白色 , ER 中 给 出 的 为 绿色 )。 我 们 在 同一 张 

线 图 中 ， 增 加 了 另外 两 个 指标 : 平均 价格 (和 线 在 同一 张 图 上 ) 和 了 指标 CPR). BK 
newTA( ) 可 用 于 绘制 新 的 函数 指标 并 加 入 到 已 有 的 线 图 中 。 该 函数 的 返回 值 是 一 个 绘图 函数 ” ! 
这 意味 着 可 以 像 调用 R 的 其 他 函数 一 样 来 调用 对 象 addT. ind 和 对 象 addAvgPrice。 这 由 最 后 两 条 
指令 来 完成 ， 每 一 条 指令 把 一 个 指标 绘制 到 前 面 用 candleChart( ) 得 到 的 线 图 中 。 每 条 指令 都 
增加 一 个 指标 让 candleChart( ) 函数 产生 初始 图 形 。 调 用 函数 addAvgPrice() 的 参数 为 1， 这 意味 
着 该 指标 将 被 绘制 到 第 一 个 图 形 窗口 中 ， 即 前 面 得 到 的 和 线 图 中 。 调 用 函数 addT. ind( ) 时 采用 
默认 参数 〈 而 不 是 设 为 1) ， 这 导致 在 和 K 线 图 下 绘制 新 的 图 形 。 由 于 指标 7 的 量 岗 和 下 线 图 不 
同 ， 所 以 在 另 一 个 图 形 中 绘制 了 是 合理 的 。 

如 图 3-1 所 示 ， 当 有 一 系列 的 时 期 价格 上 升 时 ， 了 了 值 达到 了 最 大 。 显 然 ， 为 了 计算 在 时 间 i 
时 指标 了 的 取 值 ， 需 要 有 未 来 10 天 的 价格 ， 因 此 这 里 不 是 用 了 来 预测 未 来 价格 。 预 测 未 来 价格 
不 是 指标 了 的 目的 ， 其 目的 是 把 未 来 观测 到 的 价格 变化 概括 为 一 个 单一 的 值 。 

本 案例 的 方法 假设 在 时 刻 i 的 正确 交易 行为 是 和 我 们 对 未 来 下 天 价格 的 变化 预期 相关 的 。 我 
们 用 指标 了 来 描述 未 来 价格 的 变化 。 如 果 了 值 高 于 一 个 给 定 的 界限 值 ， 那 么 正确 的 交易 信号 应 该 
“KA”; 如 果 了 值 低 于 一 个 给 定 的 界限 值 ， 那 么 正确 的 交易 信号 将 是 “ 卖 出 ” 。 在 其 他 情况 
下 ， 正 确 的 交易 方式 将 是 什么 也 不 做 〈 即 持 有 ) 。 总 之 ， 我 们 想 要 预测 时 刻 上 的 正确 交易 信号。 
对 于 历史 价格 数据 ， 我 们 将 计算 每 天 的 了 值 ， 并 用 给 定 的 界限 值 ， 用 上 面 给 出 的 方法 得 到 每 一 天 
的 正确 信号 。 

3.3.2 预测 变量 是 什么 

我 们 已 经 确定 用 指标 (T) 来 总 结 接 下 来 下 天 的 价格 时 间 序 列 行为 。 数 据 挖掘 的 目标 是 预测 
这 种 行为 。 试 图 预测 未 来 金融 市 场 行为 背后 的 主要 假设 是 通过 观察 市 场 过 去 的 行为 可 以 对 未 来 
做 出 预测 。 更 确切 地 说 ， 我 们 假设 如 果 过 去 某 些 行为 p 之 后 是 另 一 个 行为 /并且 如 果 这 一 因果 
链 经 常 发 生 ， 那 么 假设 这 一 现象 未 来 也 会 再 次 发 生 就 是 合理 的 。 所 以 如 果 我 们 现在 观察 到 现象 
P， 我 们 就 可 以 预测 下 面 将 观察 到 现象 六 我 们 用 指标 了 来 近似 表示 未 来 的 行为 O. RIT 

LU] 给 出 如 何 描述 近期 的 价格 模式 〈 即 上 面 描述 的 现象 p) 。 这 里 不 是 使 用 一 个 单一 的 指标 来 描述 价 
格 的 近期 动态 ， 而 是 使 用 多 个 指标 来 描述 价格 时 间 序 列 的 不 同属 性 ， 据 此 进行 预测 任务 。 

我 们 可 以 使 用 的 描述 过 去 最 简单 的 信息 类 型 是 最 近 观 测 到 的 价格 。 通 俗 地 说 ， 这 也 是 多 个 
标准 时 间 序 列 建 模 方法 所 应 用 的 方法 。 这 些 方法 对 时 间 序 列 未 来 值 和 该 序列 过 去 4 个 观测 值 窗口 
之 间 的 关系 建 模 。 我 们 除了 描述 当前 时 间 序 列 的 动态 特性 外 ， 还 会 考虑 最 近 一 个 窗口 时 期 的 价 
格 特征 。 

技术 指标 反映 价格 时 间 序 列 特征 的 数值 汇总 。 尽 管 应 用 这 些 指标 作为 决定 交易 的 工具 仍然 
具有 争议 性 ， 但 它们 仍然 可 以 提供 价格 时 间 序 列 动态 特征 的 有 意义 的 汇总 。 有 大 量 的 技术 指标 ， 
在 R 的 添加 包 TTR 中 可 以 找到 这 些 指 标 (Ulrich, 2009) 。 

这 些 技术 指标 通常 用 来 获取 价格 序列 的 某 些 特征 ， 例 如 价格 是 否 波动 太 大 、 是 否 有 某 种 特 
定 趋势 等 。 在 本 案例 中 ， 我 们 不 会 花 大 量 时 间 来 寻找 适合 我 们 预测 任务 的 技术 指标 。 而 且 ， 对 于 
我 们 的 案例 ， 技 术 指 标的 选择 仍然 是 一 个 研究 课题 。 这 通常 称 为 变量 选择 问题 ， 它 用 来 从 所 有 已 
知 的 输入 变量 中 找到 最 适合 建 模 的 那个 子 集 。 变 量 选 择 方法 通常 分 为 两 类 : 1) 变量 过 滤器 ; 
2) 变量 封装 。 前 者 的 变量 选择 独立 于 变量 选择 之 后 的 模型 构建 阶段 。 它 一 般 使 用 变量 的 某 些 统 


O 你 可 以 通过 输入 class( addT ind) 来 确认 这 一 点 ， 或 者 输入 对 象 的 名 称 来 查看 该 对 象 的 内 容 。 
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计 特 性 〈 如 相关 ) 来 选择 用 于 建 模 的 数据 集 。 变 量 封装 方法 在 变量 选择 过 程 中 要 包含 后 面 要 构 
建 的 模型 信息 。 它 是 一 个 循环 选择 过 程 ， 在 循环 选择 过 程 的 每 一 步 中 ， 一 组 候选 变量 用 于 特定 的 
模型 并 记录 模型 的 相应 结果 。 基 于 选择 记录 的 结果 ， 用 某 些 搜寻 操作 确定 一 组 新 的 候选 输入 变 
量子 集 ， 重 复 这 个 过 程 直 到 定义 最 终 变 量子 集 的 收敛 准则 满足 。 

我 们 将 采用 简单 的 方法 来 选择 用 于 模型 的 变量 集合 。 这 里 通过 一 个 具体 的 例子 来 演示 如 何 
选择 变量 。 这 里 不 是 试图 找 出 适合 问题 的 最 佳 变 量子 集 ， 这 将 需 更 多 的 时 间 和 计算 资源 。 首 先 我 
们 给 出 一 组 初始 输入 变量 ， 然 后 用 一 个 方法 来 估计 这 些 变量 的 重要 性 。 基 于 它们 的 重要 性 ， 选 择 
最 适合 问题 的 变量 。 

由 于 买 人 / 卖 出 决策 是 在 每 天 交易 结束 后 ， 所 以 这 里 将 集中 于 收盘 价 的 分 析 。 初 始 的 输入 变 
量 由 多 个 基于 收盘 价 的 过 去 收益 构成 。 可 以 用 下 列 公式 来 计算 h 天 (算术 ) 的 收益 ”， 或 者 百 分 
比 收益 


Ci 一 Ci- 
Ri- = C. h 





(3-5) 


这 里 C, 是 第 i 天 的 收盘 价 。 

在 候选 输入 变量 中 包含 了 从 1~10 的 10 个 百分比 收益 。 下 一 步 ， 从 R 添加 包 TTR 中 选择 
有 代表 性 的 技术 指标 集合 ， 即 平均 真实 范围 (Average True Range，ATR) ， 该 指标 是 衡量 价格 波 
动 的 指标 ; 随机 动量 指数 (Stochastic Momentum Index，SMI) ， 该 指标 是 一 个 动量 指标 ; 威 尔 
Wi -RK (Weles Wilder) 定向 运动 指数 (ADX); Aroon 指标 ， 该 指标 找 出 开始 的 趋势 ; 布 林 
带 (Bollinger Bands) 指标 ， 它 比较 一 段 时 间 内 价格 的 波动 ; 至 金波 动 (Chaikin Volatility) 指标 ; 
收盘 价位 置 价值 (Close Location Value，CLV) ， 该 指标 把 收盘 价 和 其 交易 范围 相 联系 ; 阿 姆 氏 简 
易 波 动 指标 (Ease of Movement Value, EMV); MACD 指标 ; 资金 流向 指数 (Money Flow Index, 
MFI); 抛物 线 止 损 反 转 和 波动 性 指标 。 以 上 指标 的 详细 信息 可 以 在 R 添加 包 TTR 相应 函数 的 帮助 
页 面 中 找到 。 这 些 指 标的 大 部 分 给 出 了 多 个 值 交 易 决 策 。 如 前 所 述 ， 我 们 不 打算 使 用 这 些 指标 交 
易 。 因 此 ， 我 们 对 这 些 TTR 函数 的 输出 做 了 后 续 处 理 以 获得 一 个 单一 值 。 以 下 项 数 实现 了 这 个 
过 程 : 

> myATR <- function(x) ATR(HLC(x))[, "atr"] 

> mySMI <- function(x) SMICHLC(x))[, "SMI"] 

> myADX <- function(x) ADX(HLC(x))[, "ADX"] 

> myAroon <- function(x) aroon(x[, ¢c("High", "Low")])$oscillator 

> myBB <- function(x) BBands(HLC(x))[, "pctB"] 

> myChaikinVol <- function(x) Delt (chaikinVolatility(x[, c("High", 

+ "Low")]))[, 1] 

> myCLV <- function(x) EMA(CLVCHLC(x)))[, 1] 

> myEMV <- function(x) EMV(x[, c("High", "Low")], x[, "Volume"])[, 

+ 2] 

> myMACD <- function(x) MACD(C1(x))[, 2] 

> myMFI <- function(x) MFI(x[, c("High", "Low", "Close")], 

+ xf, "Volume"]) 

> mySAR <- function(x) SAR(x[, c("High", "Close")])[, 1] 

> myVolat <- function(x) volatility (OHLC(x), calc = "garman")[, 

+ 1] 


上 面 描述 的 变量 给 出 了 预测 指标 7 的 未 来 取 值 的 初始 预测 变量 集合 。 下 面 应 用 变量 选择 方 
法 把 这 22 个 预测 变量 进行 精简 。2. 7 节 应 用 了 随机 森林 (Breiman, 2001) 方法 预测 海藻 的 频率 。 





O ”对 数 收益 的 定义 为 log( Ci/Ci_)。 
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随机 森林 也 可 以 用 于 估计 预测 任务 中 变量 的 重要 性 。 不 严格 地 讲 ， 它 可 以 通过 计算 每 个 变量 被 
移 除 后 随机 森林 误差 的 增加 来 估计 变量 的 重要 性 。 在 某 种 意义 上 ， 这 种 方法 和 变量 封装 类 似 ， 它 
在 选择 变量 过 程 中 需要 用 到 模型 的 信息 。 然 而 ， 这 里 不 是 通过 循环 过 程 来 选择 变量 的 ， 另 外 我 们 
用 其 他 的 模型 来 预测 T， 这 就 是 说 ， 这 个 变量 选择 过 程 没有 对 其 他 预测 模型 进行 优化 ， 因 此 它 更 
像 是 变量 过 滤 。 
在 本 案例 中 ， 我们 把 数据 集 分 成 2 个 独立 的 子 集 : 1) 一 个 数据 集 用 于 构建 交易 系统 ; 
2) 另 一 个 用 于 测试 。 第 一 个 数据 集 由 S&P 500 指数 前 30 年 的 数据 构成 。 剩 下 的 数据 (大约 9 
年 ) 用 于 最 终 交易 系统 的 测试 。 基 于 此 ， 为 了 避免 出 现 有 偏差 的 结果 ， 最 终 的 测试 数据 不 用 于 
变量 选择 过 程 。 
用 训练 集 数据 构建 随机 森林 模型 ， 代 码 如 下 : 
> data(GSPC) 
> library (randomForest) 
> data.model <- specifyModel(T.ind(GSPC) ~ Delt (C1(GSPC),k=1:10) + 
+ myATR(GSPC) + mySMI(GSPC) + myADX(GSPC) + myAroon(GSPC) + 
myBB(GSPC) + myChaikinVol(GSPC) + myCLV(GSPC) + 
CMO(C1(GSPC)) + EMA(Delt(C1(GSPC))) + myEMV(GSPC) + 
myVolat(GSPC) + myMACD(GSPC) + myMFI(GSPC) + RSI(C1(GSPC)) + 
mySAR(GSPC) + runMean(Cl(GSPC)) + runSD(C1(GSPC))) 
set .seed(1234) 
rf <- buildModel (data.model,method='randomForest', 
training. per=c (start (GSPC) , index (GSPC["1999-12-31"])), 
ntree=50, importance=T) 
上 面 的 代码 使 用 函数 specifyModel( ) 来 设 定 并 获取 建 模 数据 集 。 这 个 函数 创建 一 个 uantmod 
对 象 ， 它 包含 一 个 抽象 模型 (AAR) 的 描述 。 该 描述 中 所 设 定 的 数据 可 以 有 不 同类 型 的 来 
源 ， 其 中 一 些 甚 至 目前 还 不 在 计算 机 的 内 存 中 。 该 函数 将 调用 函数 getSymbols( ) 来 处 理 数据 源 ， 
并 获取 必要 的 数据 。 对 于 后 面 的 建 模 阶 段 而 言 ， 这 种 指定 数据 和 获取 必要 数据 的 方式 是 非常 方 
便 的 。 此 外 ， 对 于 来 源 为 网 络 的 数据 符号 ， 可 以 在 后 面 把 这 里 得 到 的 对 象 (在 我 们 例子 中 为 
data. model) 作为 函数 getModelData( ) 的 参数 ， 用 该 函数 来 获取 包含 最 新 报价 数据 的 对 象 。 如 果 
要 使 交易 系统 适应 更 新 的 报价 信息 ， 这 种 方法 将 十 分 便利 。 
函数 buildModel() 使 用 得 到 的 模型 规范 ， 获 得 有 相应 数据 的 模型 。 通 过 参数 training. per, 
可 以 指定 建立 模型 所 用 的 数据 (这 里 使 用 的 是 前 30 年 的 数据 ) 。 目 前 该 函数 包含 了 多 个 内 置 的 
模型 ， 其 中 有 随机 森林 。 如 果 需 要 使 用 函数 buildModel( ) 中 没有 包含 的 模型 ， 可 以 使 用 函数 
modelData( ) 来 获取 数据 ， 然 后 使 用 你 喜爱 的 模型 来 建 模 。 下 例 给 出 演示 代码 : 


> ex.model <- specifyModel(T.ind(IBM) ~ Delt(C1(IBM), k = 1:3)) 

> data <- modelData(ex.model, data.window = c("2009-01-01", 

+ "2009-08-10")) 

所 获得 的 data 对 象 是 一 个 标准 的 200 对 象 ， 它 可 以 很 容易 地 转换 为 矩阵 或 数据 框 ， 然 后 作为 
参数 供 任 何 建 模 函数 使 用 ， 如 下 面 的 演示 例子 2 : 


> m <- myFavouriteModellingTool (ex.model@model .formula, 
+ as.data.frame(data)) 


注意 ， 这 里 是 如 何 表 示 模 型 公式 的 。 建 模 中 的 “真实 ”公式 不 一 定 和 函数 specifyModel ( ) 
参数 中 提供 的 公式 完全 一 样 。 后 者 的 公式 用 来 获取 数据 , 但 “真正 ”的 公式 中 可 应 用 函数 


++VVvV++++ 


© 可 以 查看 帮助 文档 了 解 有 哪些 模型 。 
O 不 要 运行 这 段 代码 ， 这 是 一 段 “ 伪 码 ”。 
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specifyModel( ) 得 到 的 任何 列 和 相应 的 名 称 。 这 些 信息 包含 在 函数 specifyModel( ) 生成 的 quantmod 
对 象 的 model. formula 属性 中 。 

注意 ， 上 面 的 演示 代码 中 所 用 到 的 股票 (IBM)， 目 前 在 内 存 中 没有 该 股票 的 数据 。 
specifyModel( ) 函数 将 应 用 函数 getSymbols( ) 透明 地 从 网 站 获取 该 股票 的 价格 数据 。 所 有 这 一 切 
对 用 户 都 是 透明 的 ， 用 户 甚 至 可 以 在 模型 规范 中 包含 来 源 不 同 的 数据 符号 (例如 ，3.2.3 节 中 应 
用 函数 setSymbolLookup() 的 例子 ) 。 

回 到 变量 选择 问题 ， 注 意 设置 参数 importance = TRUE ， 这 样 随 机 森林 将 估计 变量 的 重要 性 。 
对 于 回归 问题 ，R 中 的 随机 森林 将 估计 两 个 可 选 变量 的 重要 性 分 数 。 第 一 个 分 数 是 当 依 次 删除 每 
个 变量 时 ， 随 即 森 林 错 误 增加 的 百分比 。 在 每 个 变量 被 删除 时 ， 通 过 计算 树 在 样本 外 数据 上 的 均 
方 误差 的 增加 来 估计 该 指标 。 该 指标 是 对 森林 中 所 有 树 得 到 的 结果 进行 并 标准 化 得 到 的 。 第 二 
个 得 分 是 与 变量 导致 的 结 点 杂质 减少 有 关 ， 当 然 它 也 是 对 所 有 树 的 平均 值 。 我 们 将 使 用 第 一 个 
得 分 ， 因 为 它 是 在 随机 森林 (Breiman, 2001) 的 原始 文献 中 提 到 的 方法 。 得 到 模型 后 ， 我 们 可 
以 检查 变量 的 重要 性 ,方法 如 下 : 

> varImpPlot (rfOfitted.model, type = 1) 115 


上 面 函数 调用 的 结果 在 图 3-2 HAH. PAR varImpPlot( ) 的 参数 是 随机 森林 和 我 们 想 绘制 的 
得 分 《如 果 省 略 参数 ， 将 绘制 两 者 ) 。 泛 型 函数 buildModel( ) 返回 作为 结果 产生 的 quantmod 对 
RAGE (fitted. model) 即 为 所 获得 的 模型 。 泛 型 函数 buildModel ( ) 返回 的 模型 对 象 将 是 
quantmod 对 象 的 一 个 属性 。 


runMean.Cl.GSPC 


myMACD.GSPC 
DelLCLGSPCk 1.10.DelLT.arthmetic 


CMO.CLGSP 


DelLCLGSPC.k.1.10.DetL5.arthmetie | -- 
mySMLGSPC 


myBB.GSPC 
Delt.Cl.GSPC.k.1.10.Dek.8.arithmetic 
DeR.CLGSPC.k.1.10.Dek.6.arithmetic 
Dekt.Cl.GSPC.k.1.10.Delt. 10.arithmetic | -- 
EMA.Delt.C1.GSPC 

Delt.CL.GSPC.k. 1.10. Dett.9 arithmetic 
myAroon.GSPC 

myChaikinVol.GSPC 





图 3-2 根据 随机 森林 的 变量 重要 性 


现在 ， 我 们 需要 确定 一 个 界限 值 来 选择 重要 性 评分 高 的 变量 子 集 。 纵 观 图 3-2 的 结果 ， 因 为 
这 是 一 个 简单 的 用 随机 森林 来 选择 变量 的 例子 ， 所 以 我 们 将 使 用 界限 值 10: 


> imp <- importance(rf@fitted.model, type = 1) 
> rownames (imp) [which(imp > 10)] 


[1] "Delt.Cl.GSPC.k.1.10.Delt.1.arithmetic" 
[2] “myATR.GSPC" 
[3] “myADX.GSPC" 
[4] "myEMV. GSPC" 
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[5] "myVolat .GSPC" 

[6] “myMACD . GSPC" 

[7] "mySAR.GSPC" 

[8] "runMean.C1.GSPC" 


函数 importance( ) 将 得 到 每 个 变量 的 具体 重要 性 分 数 〈 这 是 第 一 个 得 分 ) 。 然 后 ， 我 们 用 给 


定 的 界限 值 来 第 选用 于 建 模 的 变量 子 集 ,我 们 将 在 我 们 的 模拟 尝试 中 使 用 这 些 变 量 。 利 用 变量 
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重要 性 的 信息 ， 我 们 可 以 得 到 最 终 用 于 建立 模型 的 数据 集 : 


> data.model <- specifyModel(T.ind(GSPC) ~ Delt (C1(GSPC), k = 1) + 
+ myATR(GSPC) + myADX(GSPC) + myEMV(GSPC) + myVolat(GSPC) + 
+ myMACD(GSPC) + mySAR(GSPC) + runMean (C1 (GSPC))) 


3.3.3 预测 任务 

在 3.3.2 节 中 ,我 们 已 经 获得 一 个 quantmod Xt% (data model) ， 该 对 象 包含 了 用 于 建立 预 
测 模型 的 数据 集 。 这 个 数据 集 的 指标 了 作为 预测 指标 ， 一 系列 从 变量 选择 过 程 得 到 的 变量 将 作为 
预测 变量 。 在 3. 3. 1 节 中 已 经 看 到 ， 我 们 的 真正 目标 是 预测 在 任何 时 间 : 的 正确 交易 信号 。 给 定 
我 们 在 前 一 节 生 成 的 数据 ， 如 何 进行 这 种 预测 呢 ? 下 面 我 们 来 探索 获取 这 种 正确 交易 信号 预测 
值 的 两 种 途径 。 

第 一 种 预测 任务 是 应 用 了 值 作为 目标 变量 ， 然 后 尝试 获取 模型 ， 该 模型 应 用 预测 变量 的 信息 
预测 了 值 。 这 和 第 2 章 考 虑 的 多 元 线性 回归 任务 相似 。 如 果 应 用 这 种 方法 ， 我 们 需要 把 模型 的 预 
测 值 转换 成 交易 信号 。 这 意味 着 需要 给 出 界限 值 来 决定 预测 的 了 值 对 应 三 种 交易 信和 号 的 哪 一 种 ， 
转换 公式 如 下 : 

卖 出 T <-0.1 
signal = {a4 -0.1<T<0.1 (3-6) 
EX T>0.1 
这 里 选择 界限 值 0. 1 和 -0. 1 纯粹 是 启发 式 的 ， 也 可 以 使 用 其 他 的 界限 值 。 然 而 ， 这 两 个 界限 值 的 
意义 是 ， 生 成 了 值 的 10 日 间 ， 至 少 有 四 天 的 平均 日 价 高 于 目前 收盘 价 2. 5% 〈4* 0.025 =0.1)。 如 
果 决 定 使 用 其 他 的 界限 值 ， 需 要 考虑 的 是 ， 太 大 的 界限 绝对 值 将 导致 更 少 的 信号 ， 而 太 小 的 界限 
值 可 能 会 导致 在 太 小 的 市 场 变化 时 进行 交易 ， 从 而 招致 更 大 的 风险 。 本 书 R 包 中 的 函数 
trading. signals( ) ， 可 以 进行 上 面 的 转换 ， 它 把 数值 型 的 7 了 值 转变 为 三 个 可 能 的 值 :“s”、“h” 和 
“b”, 分 别 代 表 卖 出 、 持 有 和 买 入 行动。 

第 二 个 可 供 选 择 的 预测 任务 是 直接 预测 交易 信号 ， 这 意味 着 把 第 d 天 的 正确 信号 作为 目标 变 
量 。 怎 样 才能 获得 这 些 正 确信 号 呢 ? 这 里 仍然 使 用 指标 7 和 式 (3-6)。 对 于 可 用 的 历史 数据 ， 
我 们 通过 接 下 的 10 天 来 计算 指标 了 的 值 ， 然 后 用 式 (3-6) 中 的 界限 值 来 确定 信号 ， 从 而 得 到 每 
一 天 的 交易 信号 。 在 第 二 个 预测 任务 中 ， 目 标 变量 是 一 个 名 义 变量 。 有 目标 变量 为 名 义 变量 的 预测 
问题 称 为 分 类 任务 ?。 分 类 任务 (问题) 和 回归 任务 的 主要 区 别 是 目标 变量 的 类 型 。 回 归 任务 有 
一 个 数值 型 目标 变量 (例如 ， 我 们 案例 中 的 了 指标 ) ， 而 分 类 任务 的 目标 变量 是 取 值 为 有 限 个 值 
的 名 义 变量 。 不 同 的 方法 和 技巧 可 以 用 于 上 面 的 两 类 问题 。 

R 的 xts 添加 包 中 的 函数 基于 数值 型 数据 。xts 包 中 对 象 的 数据 属性 必须 是 向 量 或 者 矩阵 ， 即 
它们 是 单一 模式 的 数据 。 所 以 它 不 允许 训练 集 数据 的 一 列 为 名 义 变量 (R 的 因子 ) ， 而 其 他 列 为 
数值 型 变量 。 为 了 克服 xts 的 这 个 问题 ， 我 们 在 xts 外 进行 建 模 的 整个 过 程 。 下 面 你 会 看 到 ， 这 
样 比较 简单 且 没 有 任何 像 xts 那样 的 限制 。 我 们 用 xts 提供 的 功能 来 进行 数据 子 集 的 选取 和 绘图 ， 





O 有 些 统计 机 构 称 该 方法 为 “判别 任务 ”。 
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建 模 阶段 可 以 不 必 应 用 xts 的 功能 。 
下 面 的 代码 构造 本 节 下 面部 分 两 个 预测 任务 的 预测 模型 所 应 用 的 数据 结构 。 


> Tdata.train <- as.data.frame(modelData(data.model, 


十 data.window=c ('1970-01-02' ,'1999-12-31'))) 
> Tdata.eval <- na.omit(as.data. frame (modelData(data.model, 
+ data. window=c ('2000-01-01' ,'2009-09-15')))) 


> Tform <- as.formula('T.ind.GSPC ~ .') 


上 面 代码 中 的 Tdata. train 和 Tdata. eval 是 两 个 数据 框 ， 它 们 的 数据 分 别 用 于 模型 训练 阶段 和 
模型 评价 阶段 。 我 们 使 用 数据 框 作为 基本 数据 结构 ， 它 允许 分 类 任务 所 要 求 的 混合 模式 数据 集 。 
我 们 用 函数 trading. signals( ) 产生 数值 型 目标 变量 的 相应 信号 ， 然 后 用 信号 来 替代 原来 的 目标 变 
量 。 在 模型 选择 和 比较 过 程 中 没有 应 用 数据 框 Tdata. eval ， 在 评估 最 后 得 到 的 最 优 模型 时 才 应 用 
该 数据 框 。 调 用 函数 na. omit( ) 是 必要 的 ， 它 可 以 避免 在 数据 框 结束 部 分 由 于 没有 未 来 数据 计算 
T 值 所 导致 的 NA 值 。 

3.3.4 ”模型 评价 准则 

3.3.3 节 中 描述 的 预测 任务 获得 的 模型 可 以 给 出 未 来 市 场 方 向 的 预测 值 。 对 回归 任务 而 言 ， 
这 个 预测 值 是 一 个 数值 ( 即 了 值 的 预测 值 ) ; 对 分 类 任务 而 言 ， 这 个 预测 值 是 一 个 信和 号。 上面 已 
经 看 到 ， 即 使 在 回归 任务 的 情况 下 ,我 们 用 一 个 界限 值 将 回归 模型 的 预测 值 转换 为 信号 。 在 3. 5 
节 中 ， 我 们 将 描述 几 个 根据 这 些 预 测 信号 进行 市 场 行为 的 交易 策略 。 本 节 不 讨论 如 何 评价 模型 
信号 预测 问题 。 我 们 不 考虑 了 指标 的 数值 预测 评价 。 由 于 我 们 不 直接 使 用 预测 的 数值 指标 T7， 因 [118] 
此 评价 数值 型 预测 值 与 我 们 的 目标 不 相干 。 由 于 我 们 只 对 交易 信号 感 兴趣 ， 所 以 其 至 有 人 可 能 
质疑 这 些 回归 任务 是 否 有 意义 。 这 里 我 们 仍然 保持 这 些 数 值 型 的 预测 任务 ， 因 为 不 同 的 交易 策 
略 可 能 会 利用 数值 型 预测 值 的 优势 ， 比 如 ， 当 开盘 时 ， 可 以 根据 数值 型 预测 值 的 大 小 来 决定 投资 
金额 。 决 定 开盘 时 的 了 值 ， 如 果 远 远大 于 界限 值 (了 >0. 1 决定 买 人 和 了 <-0.1 决定 卖 出 ) ， 可 以 


导致 更 大 的 投资 。 
可 以 通过 测量 错误 率 来 衡量 信号 预测 ， 错 误 率 的 定义 为 
error. rate = Hoy bons) (3-7) 
RE y, BA i MURA RAM, MASSE y,, Ly, 是 0/1 损失 函数 ， 其 定义 为 : 
a 1 ¥, ; 
Lon (Yi; ,7;) = | 7: 2% (3-8) 
Oy =y 


有 时 候 经 常 采用 上 面 损失 函数 的 对 立 测度 ， 即 精确 度 ， 定 义 为 1 - error. rate, 

A (3-7) MA (3-8) 中 定义 的 统计 量 都 是 用 来 把 模型 的 预测 值 和 未 来 下 天 市 场 上 真实 发 生 
的 结果 进行 比较 。 

精确 度 (或 者 错误 率 ) 被 证 明 不 是 衡量 分 类 问题 好 坏 的 最 佳 指标 。 事 实 上 ， 在 三 个 可 能 的 
结果 中 ， 它 们 极 不 平衡 。 在 金融 市 场 中 ， 大 的 价格 波动 比较 少 ， 所 以 “ 持 有 ”这 一 结果 出 现 的 
次 数 大 大 超过 另外 两 个 结果 出 现 的 次 数 ?。 这 就 意味 着 精确 度 值 将 主要 由 模型 在 出 现 最 多 的 结果 
CFA) 上 的 性 能 来 决定 。 然 而 ,，“ 持 有 ” 却 不 是 我 们 交易 所 关心 的 结果 。 我 们 需要 在 “罕见 ” 
事件 〈 买 入 或 者 卖 出 ) 上 预测 准确 的 模型 。 买 人 或 者 卖 出 事件 才 是 导致 市 场 行 为 并 有 潜在 利润 
的 事件 ， 也 是 我 们 应 用 的 最 终 目标 。 


O 很 明显 这 取决 于 你 所 建立 的 目标 边际 利润 。 但 是 ， 为 了 能 覆盖 交易 成 本 ， 应 该 设 定 该 边际 利润 足够 大 ， 所 以 ， 
这 里 的 “罕见 ”的 确 是 事实 情况 。 
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金融 市 场 预测 是 罕见 事件 驱动 应 用 的 一 个 例子 。 基 于 事件 的 预测 任务 通常 由 决策 精确 度 指 
标 和 回溯 精确 度 指 标 来 衡量 ， 这 两 个 指标 可 以 集中 于 所 关注 事件 的 评估 而 不 是 常见 事件 的 评估 
(我 们 案例 中 的 “ 持 有 ”信号 即 为 常见 事件 ) 。 决 策 精 确 度 衡量 模型 给 出 的 事件 信和 号 的 正确 百 分 
比 ; 而 回溯 精确 度 则 是 指 模型 给 出 的 事件 信号 占 事实 存在 的 百分比 。 通 过 分 类 和 矩阵 (又 称 为 混 
淆 矩阵 ) 可 以 方便 地 计算 这 两 个 指标 。 分 类 矩阵 是 通过 比较 模型 的 预测 值 和 真实 值 ， 然 后 汇总 
119] 得 到 的 。 表 3-1 给 出 了 本 案例 的 分 类 矩阵 。 
通过 表 3-1， 本 案例 的 决策 精确 度 和 回溯 精确 度 指标 正式 定义 如 下 : 
Nos + Nyy 
N +N, 


nN, + Thy y 








(3-9) 


Prec = 


Rec = 





(3-10) 


N,, + Ns, 


表 3-1 预测 交易 信号 的 分 类 和 矩阵 
预测 结果 


























也 可 以 单独 对 某 个 特定 的 信号 〈 例 如 买 信号 或 者 卖 信号 ) 计算 其 独立 的 决策 精确 度 和 回溯 
精确 度 ， 例 如 ; 


(3-11) 


Nyy 
Prec, = N, 
Rec, = We (3-12) 

经 常 把 决策 精确 度 和 回溯 精确 度 合并 为 一 个 统计 量 ， 称 为 度量 (Rijsbergen, 1979), AH 
后 的 统计 量 为 : 


F- (B +1) + Prec + Rec (3-13) 
B - Prec + Rec 


这 里 0<B<1, 它 控制 回溯 精确 度 相对 决策 精确 度 的 相对 重要 性 。 
3.4 预测 模型 

在 本 节 中 ， 我 们 将 探讨 一 些 模型 ， 通 过 运用 这 些 模 型 来 完成 3. 3 节 所 确定 的 预测 任务 。 我 们 
主要 通过 研究 模型 处 理 非 线性 回归 问题 的 优 劣 来 选择 最 佳 模 型 ， 这 就 是 我 们 案例 中 所 要 研究 的 
问题 。 当 然 ， 许 多 其 他 的 方法 也 可 以 用 来 解决 这 个 问题 ， 在 研究 股票 收益 率 这 样 一 个 领域 中 ， 任 
何 一 个 更 好 的 研究 方法 都 必然 需要 经 历 更 多 的 比较 和 更 多 的 选择 。 在 本 书 上 下 文 的 背景 下 ， 这 

120 | 样 的 探索 将 由 于 其 需要 计算 空间 和 计算 能 力 方面 的 费用 而 显得 没有 意义 。 

3.4.1 如何 应 用 训练 集 数 据 来 建 模 

复杂 的 时 间 序 列 问 题 通常 有 着 不 同 的 表现 形式 ， 比 如 序列 由 波动 大 的 阶段 到 相对 较 平稳 
的 阶段 ， 或 者 是 有 某 种 趋势 倾向 的 序列 。 这 些 类 型 的 序列 通常 称 为 是 非 平稳 时 间 序 列 ， 在 某 
些 模 型 的 基本 假设 条 件 下 ， 非 平稳 序列 将 会 带 来 严重 的 问题 。 这 是 显而易见 的 ， 比 如 运用 我 
们 案例 中 的 数据 ， 画 出 价格 的 时 间 序 列 图 。 为 了 克服 由 非 平 稳 序 列 带 来 的 消极 影响 ， 我 们 可 
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以 使 用 一 些 方法 来 尝试 着 消除 这 些 影响 ， 比 如 使 用 适用 于 原始 时 间 序 列 的 一 些 转换 方法 ， 用 
收益 百分比 的 变化 来 替换 原来 的 绝对 价格 就 是 一 种 转换 方法 ， 也 可 以 对 已 经 获得 的 数据 有 选择 
地 使 用 。 假 设 需 要 用 给 定期 间 的 训练 集 数据 来 建立 一 个 预测 模型 ， 并 使 用 该 模型 获得 其 测试 时 
间 有 段 的 预测 值 。 标 准 的 做 法 是 用 训练 集 建立 模型 ， 然 后 将 模型 应 用 到 测试 集 获取 预测 值 。 如 果 我 
们 有 理由 相信 序列 在 某 个 时 间 点 发 生 了 变化 ， 那 么 用 同一 个 模型 来 预测 测试 时 间 段 的 数据 将 不 
是 最 好 方法 ， 尤 其 是 当 测 试 时 间 段 存在 一 个 改变 点 时 ， 它 将 会 严重 破坏 原 有 模型 的 性 能 。 在 这 种 
情况 下 ， 我 们 需要 改变 或 者 调整 模型 ， 使 模型 适应 最 近 的 数据 ， 这 样 模型 就 能 获取 当前 数据 的 
变化 。 

在 时 间 序 列 问题 中 ， 测 试 案例 中 有 一 种 隐 含 的 时 间 顺 序 。 在 上 下 文中 ， 假 设 当 我 们 获得 一 个 
时 间 序 列 在 i 时 的 预测 时 ， 所 有 时 间 标 记 小 于 i 的 时 期 上 (k <i) 的 数据 就 已 经 属于 过 去 。 这 就 
意味 着 ， 假 设 我 们 已 经 知道 这 些 过 去 时 期 的 目标 变量 的 真实 值 ， 那 么 我 们 就 可 以 放心 地 使 用 这 
些 信息 。 因 此 ， 如 果 在 测试 集 时 间 序 列 的 某 个 时 间 点 m， 我 们 有 信心 相信 时 间 序 列 发 生 了 变化 ， 
那么 应 该 把 测试 集 时 间 序 列 时 间 点 m 之 前 的 所 有 观测 值 包 含 到 初始 训练 集 数据 中 ， 然 后 用 这 个 
包含 新 的 变化 信息 的 训练 集 数据 来 更 新 预测 模型 ， 这 样 就 可 以 提高 预测 模型 对 未 来 情况 的 预测 
性 能 。 更 新 模型 的 一 种 方式 就 是 使 用 新 的 训练 案例 数据 来 改变 原来 的 模型 。 这 些 方法 通常 称 为 
增 量 学 习 ， 因 为 它 更 新 模型 以 适应 最 新 的 信息 而 无 须 从 头 开始 。 目 前 还 没有 太 多 的 建 模 技巧 应 
用 这 种 更 新 模型 的 方式 ， 尤 其 是 在 R 中 ,没有 很 多 的 模型 可 以 采用 这 种 方式 。 在 本 书 中 ,我 们 
将 按照 其 他 的 方法 来 更 新 模型 ， 使 用 新 的 训练 数据 集 来 重新 建立 新 的 模型 。 这 显然 在 计算 方面 
更 有 难度 ,尤其 是 数据 到 达 速 度 很 快 ， 并且 要 求 几 乎 实时 地 给 出 模型 和 决策 时 ， 这 种 方法 就 不 适 
用 了 。 这 个 问题 在 应 用 研究 中 很 常见 ， 即 数据 流 问题 。 在 我 们 的 应 用 程序 中 ， 我 们 在 每 天 收市 后 
做 出 决策 ， 因 此 速度 不 是 一 个 关键 问题 ” 。 假 设 我 们 使 用 一 种 重新 学 习 的 方法 ， 我 们 有 两 种 基本 
的 形式 将 新 的 案例 纳入 训练 集中 。 不 断 增 加 窗口 的 方法 只 是 简单 地 将 它们 添加 到 当前 的 训练 集 ， 
从 而 不 断 地 扩大 样本 集 。 这 种 方法 的 最 终 问 题 在 于 ， 由 于 我 们 假设 最 近 的 数据 是 有 助 于 建立 更 
好 的 模型 ， 所 以 我 们 也 会 考虑 我 们 最 早 的 那 部 分 训练 数据 是 不 是 已 经 过 时 了 ， 是 不 是 可 能 会 降 
低 模型 的 精确 性 呢 ? 基于 这 些 考 虑 ， 在 滑动 窗口 方式 下 ， 在 删除 训练 集中 最 原始 数据 的 同时 ， 加 
入 最 新 的 观察 数据 ， 从 而 保持 训练 集 的 大 小 不 变 。 

扩大 和 背 动 窗口 的 方法 都 涉及 一 个 关键 的 决定 : 什么 时 候 应 该 通过 纳入 更 新 的 数据 来 改善 
或 者 调整 模型 ? 解决 这 个 问题 主要 有 两 种 方法 。 第 一 种 方法 需要 通过 检查 来 估计 模型 的 预测 能 
力 从 什么 时 候 开 始 降低 。 如 果 我 们 观察 到 在 某 个 时 候 ， 模 型 的 预测 性 能 突然 降低 ， 我 们 就 可 以 认 
为 在 这 时 模型 发 生 了 改变 。 这 种 方法 最 主要 的 挑战 就 在 于 给 出 模型 性 能 变化 的 合理 估计 。 我 们 
需要 尽快 地 检测 到 模型 性 能 的 变化 ， 但 又 不 能 对 模型 没有 捕获 的 一 些 噪声 案例 过 度 反 应 。 第 二 
种 更 简单 的 方法 是 在 常规 时 间 的 基础 上 更 新 模型 ， 也 就 是 说 ， 每 隔 w 个 测试 用 例 ， 用 更 新 的 数 
据 来 建立 新 的 模型 。 在 本 案例 中 ， 我 们 就 采用 这 种 方法 。 

总 之 ， 我 们 考虑 每 一 个 模型 应 用 会 用 到 以 下 三 种 不 同 的 方法 : 1) 所 有 的 测试 时 段 都 使 用 一 
个 模型 ; 2) 每 隔 w 天 更 新 数据 增长 窗口 ; 3) 用 每 隔 w 天 的 数据 滑动 窗口 。 图 3-3 说 明了 这 三 
种 方法 。 

趋势 变化 的 参考 文献 

时 间 序 列 数据 的 趋势 变化 问题 是 统计 过 程控 制 ( 例 如 ，0Oakland，2007) 领域 长 时 间 研 究 的 
课题 ， 它 使 用 控制 图 检测 数据 的 突变 点 。 这 一 课题 受到 数据 流 的 影响 (例如 ，Gama and Gaber, 
2007)， 人 们 在 数据 挖 振 领 域 的 兴趣 不 断 增加 。 多 部 作品 (Gama et al. ，2004; Kifer et al. ， 
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2004; Klinkenberg, 2004) 已 经 解决 了 问题 : 如 何 检测 制度 的 变化 ， 以 及 如 何 学 习 和 运用 在 这 些 
变化 方面 的 模型 。 
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122 图 3-3 ”三 种 形式 获得 测试 时 段 数据 的 预测 
3.4.2 建 模 工具 
在 本 节 中 ， 我 们 简要 介绍 建 模 的 方法 ,将 使 用 这 些 方法 来 完成 我 们 的 预测 任务 ， 并 说 明 在 R 
中 如 何 使 用 这 些 方 法 。 


3.4.2.1 人 工 神 经 网 络 

人 工 神经 网 络 (Artificial Neural Network, ANN) 经 常 在 金融 预测 中 使 用 (例如 ，Deboeck， 
1994) ， 因 为 运用 人 工 神经 网 络 可 以 处 理 高 度 非 线性 问题 。R 的 添加 包 nnet 可 以 实现 前 馈 神经 网 
络 。 这 种 类 型 的 神经 网 络 是 最 常用 的 ， 也 是 我 们 将 要 使 用 的 神经 网 络 。 

人 工 神 经 网 络 中 由 相互 联系 的 计算 单元 ( 即 神 经 元 ) 构成 。 每 个 神经 元 执行 两 次 连续 的 计 
算 : 输入 的 线性 组 合 ; 之 后 对 前 面 结果 的 非 线 性 计算 得 到 的 输出 值 作为 神经 网 络 的 下 一 个 神经 
元 的 输入 。 每 个 神经 元 连接 都 有 一 个 相关 联 的 权重 。 要 构建 人 工 神 经 网 络 ， 先 要 建立 网 络 体系 结 
构 ， 然 后 使 用 一 种 算法 来 计算 出 神经 元 之 间 的 连接 权重 。 

前 馈 人 工 神 经 网 络 按 层 来 组 织 神经 元 。 第 一 层 包含 网 络 输入 神经 元 ， 训 练 集 的 观测 值 通过 
这 些 输 入 神经 元 传递 给 网 络 。 最 后 一 层 包 含 了 任何 情况 下 传递 给 神经 网 络 输入 神经 元 的 神经 网 
络 预测 值 。 在 这 两 层 之 间 ， 通常 有 一 个 或 多 个 “隐藏 ” 层 神 经 元 。 权 重 更 新 算法 ， 比 如 反 向 传 
播 法 ， 试 图 获得 能 够 优化 某 个 误差 标准 的 连接 权重 ， 也 就 是 试图 确保 网 络 输出 与 提交 给 神经 网 
络 模型 的 训练 集 个 案 一 致 。 这 是 通过 在 网 络 输入 结 点 多 次 传人 训练 个 案 来 进行 迭代 的 一 个 过 程 ， 
在 网 络 输出 结 点 获得 预测 值 并 计算 出 各 自 的 预测 误差 后 ， 通 过 更 新 网 络 中 的 权重 来 减 小 模型 的 
预测 误差 。 这 种 迭代 过 程 反复 进行 ， 直 到 满足 一 定 的 收敛 准则 。 

使 用 R 中 的 添加 包 nnet (Venables and Ripley, 2002) 中 的 一 个 函数 实现 了 带 有 隐藏 层 的 前 
馈 神 经 网 络 。 通 过 该 函数 获得 的 网 络 ， 既 可 以 用 于 分 类 问题 ， 也 可 以 用 于 回归 问题 ， 因 此 它 适 用 

123] 于 我 们 的 预测 任务 ( 见 3.3.3 节 )。 . 

人 工 神 经 网 络 对 预测 问题 中 变量 的 尺度 敏感 。 这 种 情况 下 ， 在 将 数据 应 用 到 神经 网 络 前 ， 先 
进行 数据 转换 是 很 有 意义 的 。 这 样 就 可 以 避免 神经 网 络 模型 的 性 能 受到 变量 尺度 的 影响 。 在 我 
们 的 案例 中 ， 先 进行 数据 的 标准 化 处 理 ， 使 所 有 变量 均 具 有 零 均值 和 标准 差 为 1。 通 过 下 面 的 公 
式 ， 可 以 很 容易 地 对 数据 集 的 每 一 列 应 用 下 列 公式 进行 转换 : 


x- x 





¥, = (3-14) 
Uo 


其 中 ,x 是 原始 变量 X 的 均值 ，o, 是 变量 工 的 标准 偏差。 
PRK scale( ) 可 以 用 来 进行 上 面 的 数据 变换 ， 在 本 书 的 R 添加 包 中 ,还 可 以 找到 函数 
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unscale( ) ， 这 个 函数 可 以 进行 标准 化 过 程 的 逆 运 算 ， 将 转换 后 的 数据 转变 为 原来 尺度 的 数据 。 
下 面 是 一 个 非常 简单 的 例子 ， 用 来 说 明 在 R 中 如 何 获取 和 使 用 这 种 类 型 的 神经 网 络 : 

> set.seed(1234) 

> library (nnet) 

> norm.data <- scale(Tdata.train) 

> nn <- nnet(Tform, norm.data[1:1000, ], size = 10, decay = 0.01, 

+ maxit = 1000, linout = T, trace = F) 

> norm.preds <- predict(nn, norm.data[1001:2000, J) 

> preds <- unscale(norm.preds, norm.data) 

在 默认 情况 下 ， 函 数 nnet( ) 以 在 区 间 [ -0.5, 0.5) 的 随机 值 来 设置 结 点 之 间 链 接 的 初始 
权重 ， 这 意味 着 连续 运行 两 次 有 完全 相同 参数 的 同一 函数 ， 得 到 的 实际 结果 可 能 不 同 。 为 了 确保 
可 以 得 到 相同 的 结果 ， 我 们 增加 了 调用 函数 set. seed( ) ， 这 个 函数 可 以 初始 化 随机 数 发 生 器 中 的 
种 子 值 ， 这 样 就 确保 了 可 以 得 到 与 本 书 中 一 样 的 结果 。 在 这 个 示例 中 ， 我 们 用 开始 的 1000 个 训 
练 集 观测 值 来 创建 神经 网 络 ， 并 用 接 下 来 的 1000 观测 值 来 测试 这 个 预测 模型 。 将 训练 数据 标准 
化 后 ， 我 们 调用 函数 nnet( ) 来 建立 模型 。 前 两 个 参数 是 R 中 任何 模型 的 函数 中 都 有 的 参数 。 模 
型 的 函数 形式 通过 一 个 公式 来 具体 化 ， 训 练 集 数据 用 于 建立 模型 。 我 们 也 使 用 nnet( ) 函数 中 的 
一 些 参数 。 也 就 是 说 ， 参 数 sie 用 来 指定 隐藏 层 中 的 结 点 个 数 。 这 里 使 用 的 参数 size 的 值 没 有 什 
么 神奇 配方 ， 人 们 通常 会 尝试 几 个 值 来 观察 神经 网 络 的 行为 。 尽 管 如 此 ， 可 以 合理 地 假设 该 参数 
的 值 小 于 问题 中 预测 变量 的 个 数 。 参 数 decay 控制 反 向 传播 算法 权重 的 更 新 率 。 而 且 ， 实 验 和 查 
错 是 最 重要 的 方法 。 最 后 ， 参 数 mait 控制 权重 收敛 过 程 所 人 允许 使 用 的 最 大 和 迭代 次 数 ; 而 参数 
linout = T 告诉 该 阻 数 是 处 理 回 归 问 题 ， 参 数 trace = 了 是 用 来 避免 一 些 和 优化 过 程 有 关 的 结果 被 
输出 。 

函数 predict( ) 可 以 用 来 获得 测试 数据 集 的 神经 网 络 预测 值 。 取 得 这 些 预 测 值 后 ， 我 们 使 用 
本 书 R 添加 包 中 提供 的 函数 unsacale( ) 转换 为 原来 尺度 的 数据 。 这 个 函数 的 第 一 个 参数 是 预测 
值 ， 第 二 个 参数 是 含有 标准 化 数据 的 对 象 。 后 一 个 参数 中 的 对 象 是 必要 的 ， 因 为 该 对 象 中 存储 了 
用 于 标准 化 数据 的 均值 和 标准 差 ?， 这 两 者 是 逆转 标准 化 过 程 所 必需 的 。 

让 我 们 来 评估 人 工 神经 网 络 模 型 预测 测试 集 信 号 的 准确 性 。 我 们 可 以 将 数值 型 预测 值 转换 
成 信号 ， 然 后 使 用 3. 3. 4 节 中 的 统计 方法 。 


> sigs.on <- trading.signals(preds, 0.1, -0.1) 

> true.sigs <- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
+ 0.1, -0.1) 

> sigs.PR(sigs.nn, true.sigs) 


precision recall 
s 0.2101911 0.1885714 
b 0.2919255 0.5911950 
s+b 0.2651357 0.3802395 


分 别 给 定 买 人 和 卖 出 决策 的 界限 值 ， 函 数 trading. signals() 可 以 将 预测 数值 转换 成 信和 号。 天 
数 sigs. PRC) 可 以 获得 我 们 关心 的 两 类 事件 以 及 决策 精确 度 和 回 渊 精确 度 矩阵 。 这 些 值 表 明 人 
工 神经 网 络 的 预测 性 能 并 不 是 很 好 。 实 际 上 ， 会 得 到 相当 低 的 预测 精确 度 ， 回 溯 精 确 度 值 也 不 是 
很 好 。 但 是 ， 后 者 比较 差 所 导致 的 问题 不 是 太 严 重 ， 因 为 它 基本 上 意味 着 失去 机 会 而 不 意味 着 有 
成 本 损失 。 另 一 方面 ， 预 测 精确 度 的 较 小 值 意 味 着 该 模型 频繁 给 出 错误 信号 。 如 果 这 些 信号 被 用 
来 交易 ， 就 可 能 导致 严重 的 损失 。 
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人 工 神经 网 络 也 可 以 用 于 分 类 问题 。 对 于 这 类 问题 ， 在 网 络 拓扑 方面 最 主要 的 区 别 在 于 不 
是 一 个 单一 的 输出 单位 ， 我 们 将 有 和 目标 变量 值 (有 时 称 为 类 变量 ) 一 样 多 的 输出 单位 ， 这 些 
输出 单位 的 每 一 个 都 将 产生 各 自 类 值 的 概率 估计 。 这 意味 着 ， 对 于 每 一 个 测试 个 案 ， 人 工 神经 网 
络 可 以 产生 一 组 概率 值 ， 每 一 个 概率 值 相应 于 一 个 可 能 的 类 值 。 
使 用 nnet( ) 函数 来 完成 这 个 任务 与 使 用 该 函数 解决 回归 问题 很 相似 。 使 用 训练 数据 并 应 用 
下 面 的 代码 进行 演示 : 


> set.seed(1234) 
> library (nnet) 
> signals <- trading.signals(Tdata.train[, "T.ind.GSPC"], 0.1, 


+ -0.1) 

> norm.data <- data.frame(signals = signals, scale(Tdata.train[, 

+ -1])) 

> nn <- nnet(signals ~ ., norm.data[1:1000, ], size = 10, decay = 0.01, 
+ maxit = 1000, trace = F) 


> preds <- predict(nn, norm.data[1001:2000, J, type = "class") 


这 里 的 参数 type = "class" 是 用 于 获得 测试 集 个 案 的 类 标签 ， 而 不 是 概率 的 估计 值 。 在 神经 网 
络 预测 中 ， 可 以 计算 出 模型 的 预测 精确 度 和 回溯 精确 度 ， 代 码 如 下 : 
> sigs.PR(preds, norm.data[1001:2000, 1]) 
precision recall 
s 0.2838710 0.2514286 


b 0.3333333 0.2264151 
stb 0.2775665 0.2185629 


上 面 结 果 中 ， 预 测 精确 度 和 回溯 精确 度 的 值 还 较 低 ， 但 是 都 高 于 回归 任务 中 相应 的 值 。 

基于 神经 网 络 的 参考 文献 

Rojas (1996) 的 书 是 基于 神经 网 络 的 一 本 不 错 的 参考 书 。 对 于 更 多 金融 方面 的 读物 ，Zirilli 
(1997) 的 书 是 一 本 很 好 的 和 容易 阅读 的 书 。 题 为 “Artificial Neural Networks Forecasting Times 
Series” (Rogers and Vemuri, 1994) 的 论文 集 是 另外 一 个 好 的 引用 源 和 参考 文献 。Deboeck 
(1994) 书 的 第 一 部 分 专门 提供 了 神经 网 络 应 用 程序 交易 的 几 个 章节 。McCulloch 和 Pitts (1943) 
提出 了 第 一 个 人 工 神经 元 模型 ， 这 项 工作 是 由 Ronsenblatt (1958)、Minsky 和 Papert (1969) 推 
广 的 。 反 向 传播 法 ， 最 常用 的 权重 更 新 方法 ， 虽 然 经 常 归功 于 Rumelhart 等 (1986), RH 
Rojas (1996) 的 书 ， 这 个 方法 是 由 Werbos (1974, 1996) 发 明 的 。 

3.4.2.2 支持 向 量 机 

支持 向 量 机 (Support Vector Machine，SVM)S 和 人 工 神经 网 络 一 样 ， 也 是 一 种 建 模 工具 ， 可 
以 用 于 回归 和 分 类 问题 。 基 于 其 成 功 应 用 到 多 个 领域 和 其 强大 的 理论 背景 ， 支 持 向 量 机 已 经 受 
到 越 来 越 多 不 同 研究 领域 的 关注 。Vapnik (1995, 1998) 、Shawe-Taylor 和 Cristianini (2000) 是 
支持 向 量 机 的 两 个 重要 参考 文献 。Smola 和 Scholkopf (2004, 1998) 出 版 了 一 本 极 好 的 支持 向 量 
机 指南 ， 概 述 了 支持 向 量 机 用 于 回归 的 基本 思想 。R 中 有 多 个 添加 包 实 现 了 支持 向 量 机 ， 在 这 些 

添加 包 中 ， 我 们 可 以 参考 由 Karatzoglou 等 (2004) 提供 的 带 有 多 种 功能 的 添加 包 kemlab, 我们 

也 可 以 使 用 由 Dimitriadou (2009) 提供 的 带 有 svm( ) 函数 的 添加 包 e1071, 

支持 向 量 机 的 基本 思想 是 ， 将 原始 数据 映射 到 一 个 新 的 高 维 空间 中 ， 在 这 个 新 的 高 维 空间 
中 ， 有 可 能 应 用 线性 模型 来 获得 一 个 超 平面 来 进行 分 离 ， 例 如 在 分 类 任务 中 ， 分 离 问题 中 的 不 同 


© 可 以 在 网 站 : http://www. kemel-machines. org 上 得 到 该 类 模型 的 大 量 信息 。 
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类 别 。 将 原始 数据 映射 到 这 一 新 的 空间 是 在 所 谓 的 核 函 数 的 帮助 下 进行 的 。 支 持 向 量 机 是 作用 
在 由 核 函数 所 引入 的 对 称 表示 的 线性 机 。 

在 新 的 对 称 表 示 下 进行 超 平面 分 割 ， 这 是 通过 最 大 化 不 同类 别 之 间 个 案 的 分 割 边际 来 进行 
的 。 参 见 图 3-4。 这 是 一 个 优化 问题 ， 经 常用 二 次 规划 来 解决 。 软 边界 方式 允许 将 比例 很 小 的 个 
案 划分 到 “错误 ”的 类 别 ， 这 些 方式 导致 一 定 的 “损失 ”。 

在 支持 向 量 回 归 中 ， 这 个 过 程 很 相似 ， 主 要 区 别 在 于 误差 和 相关 损失 的 计算 。 这 通常 借助 于 
所 谓 的 « 不 敏感 损失 函数 | | ,， 该 函数 形式 如 下 : 


-0 lél<e _ 
El {es (3-15) 





图 3-4 支持 向 量 机 边际 最 大 化 


下 面 ， 我 们 将 提供 使 用 R 中 这 类 模型 的 简单 例子 。 我 们 从 使 用 添加 包 e1071 中 的 函数 进行 回 
归 任 务 开始 ， 代 码 如 下 : 


> library(e1071) 

> sv <- svm(Tform, Tdata.train[1:1000, ], gamma = 0.001, cost = 100) 
> s.preds <- predict(sv, Tdata.train[1001:2000, ]) 

> sigs.svm <- trading.signals(s.preds, 0.1, -0.1) 

> true.sigs <- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
+ 0.1, -0.1) 

> sigs.PR(sigs.svm, true.sigs) 


precision recall 

s 0.4285714 0.03428571 

b 0.3333333 0.01257862 

s+b 0.4000000 0.02395210 

在 这 个 例子 中 ,我 们 使 用 了 函数 svm( ) ， 除 参数 gamma 和 cost 外 ， 大 部 分 的 参数 我 们 都 采用 
默认 值 。 在 本 节 中 ， 该 函数 使 用 了 一 个 径 向 基 核 函数 : 

K(x,y) = exp(- yx |[x—-y ||’) (3-16) 

其 中 yy 是 一 个 用 户 参 数 ， 在 上 面 的 函数 调用 中 ， 它 的 值 设 置 为 0.001。( 在 函数 svm( ) F, FS 
数 的 默认 值 为 1/ncol( data) ) 。 

BR cost 给 出 违反 边际 所 引入 的 损失 。 你 可 以 参考 函数 svm 的 帮助 页 面 以 获取 该 参数 和 其 他 
参数 的 细节 。 

我 们 可 以 观察 到 ， 支 持 向 量 机 模型 的 决策 精确 度 值 比 人 工 神 经 网 络 好 许多 ， 尽 管 回溯 精确 
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度 的 值 很 低 。 
下 一 步 ， 我 们 考虑 分 类 任务 ， 这 次 使 用 R 的 kernlab 添加 包 ， 代 码 如 下 : 


> library (kernlab) 
> data <- cbind(signals = signals, Tdata.train[, -1]) 
> ksv <- ksvm(signals ~ ., data[1:1000, ], C = 10) 


Using automatic sigma estimation (sigest) for RBF or laplace kernel 


> ks.preds <- predict(ksv, data[1001:2000, ]) 
> sigs.PR(ks.preds, data[1001:2000, 1]) 


precision recall 
8 0,1935484 0.2742857 
b 0.2688172 0.1572327 
s+b 0.2140762 0.2185629 


我 们 使 用 kernlab 添加 包 中 的 函数 ksvm( ) ， 其 中 的 参数 C 用 来 指定 违反 约 东 的 不 同 损失 ， 该 
参数 的 默认 值 为 1。 除 此 之 外 ， 其 他 参数 使 用 默认 值 ， 例 如 ， 在 分 类 时 用 的 默认 参数 是 径 向 基 核 
函数 。 可 以 通过 函数 ksvm( ) 的 帮助 页 面 获取 更 多 的 细节 。 

127 支持 向 量 机 分 类 的 结果 并 不 如 支持 向 量 机 回归 的 结果 好 。 这 并 不 意味 着 我 们 声明 这 是 用 支 
H 持 向 量 机 技术 所 能 获得 的 最 好 结果 。 这 些 都 只 是 说 明 如 何在 R 中 使 用 这 些 建 模 技术 的 简单 例子 。 

3.4.2.3 多 元 自 适 应 回归 样 条 

多 元 自 适应 回归 样 条 (MARS) (Friedman, 1991) 是 自 适应 回归 模型 (Hastie and Tibshirani, 
1990) 的 一 个 例子 。 一 个 多 元 自 适 应 回归 样 条 模型 具有 以 下 一 般 形式 : 

mars(x) = co + DeB,(x) (3-17) 
其 中 c, 是 常数 ，B,(x) HERR. 

基 函 数 可 以 有 多 种 不 同 的 表现 形式 ， 从 简单 常量 到 描述 两 个 或 多 个 变量 相互 关系 的 函数 。 

但 是 ， 最 常见 的 基 函 数 是 所 谓 的 贸 链 函 数 ， 有 如 下 形式 : 
H[- (x; -t)] = max(0,t—x) H[+(x,-t)] = max(0,x,; -1) 
Eh x, 是 一 个 预测 变量 ,i 是 该 预测 变量 的 界限 值 。 图 3-5 给 出 这 两 个 旺 数 的 一 个 例子 。 


— max(0,x—3.5} 
-- max(0,3.5-x} 





2.0 25 3.0 35 40 45 5.0 
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ÉR 中 已 经 至 少 有 两 个 添加 包 实 现 了 多 元 自 适应 回归 样 条 模型 。 添 加 包 mda (Leisch et al. , 
2009) 包含 了 函数 mars( ) ， 该 函数 实现 了 多 元 自 适 应 回归 样 条 方法 。 添 加 包 earth ( Milborrow， 
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2009) 中 的 函数 earth( ) 同样 也 实现 了 多 元 自 适应 回归 样 条 方法 。 从 建 模 函数 提供 的 基于 公式 的 
KORKA, Ky earth( ) 有 着 能 够 遵循 更 标准 的 R 构架 的 优势 。 同 时 添加 包 earth 还 实现 了 其 他 
添加 包 所 不 具有 的 功能 ， 因 此 我 们 选择 添加 包 earth。 

下 面 是 应 用 函数 earth( ) 进行 回归 的 代码 : 


> library (earth) 

> e <- earth(Tform, Tdata.train[1:1000, ]) 

> e.preds <- predict(e, Tdata.train[1001:2000, ]) 

> sigs.e <- trading.signals(e.preds, 0.1, -0.1) 

> true.sigs <- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
+ 0.4, -0.1) 

> sigs.PR(sigs.e, true.sigs) 


precision recall 
s 0.2785714 0.2228571 
b 0.4029851 0.1698113 
stb 0.3188406 0.1976048 


得 到 的 结果 与 支持 向 量 机 的 回归 结果 相差 不 大 ， 决 策 精确 度 约 为 30% ， 回 溯 精 确 度 要 更 低 
一 些 。 

多 元 自 适应 回归 样 条 只 适用 于 回归 问题 ， 所 以 在 分 类 问题 方面 我 们 就 不 再 举例 说 明 。 

关于 多 元 自 适应 回归 样 条 的 参考 文献 

多 元 自 适应 回归 样 条 可 以 参考 具有 权威 性 的 Friedman (1991) 的 原始 文章 。 这 是 一 篇 很 好 的 
文章 ， 它 提供 了 所 有 关于 推动 多 元 自 适 应 回归 样 条 的 发 展 以 及 系统 中 技术 应 用 的 所 有 细节 。 这 
篇 文章 还 包括 了 其 他 科学 家 工作 意见 和 有 趣 的 讨论 。 


3.5 从 预测 到 实践 


这 节 描 述 如 何 应 用 上 节 的 模型 所 得 到 的 预测 信号 。 给 定 模 型 输出 的 一 组 信号 ， 可 有 许多 方 
式 将 它们 运用 于 市 场 的 交易 决策 。 
3.5.1 如 何 应 用 预测 模型 

在 本 案例 中 ,我 们 假设 在 期 货 市 场 进 行 交易 。 期 货 市 场 是 在 合约 基础 上 进行 交易 的 ， 合 约 规 
定 在 未 来 某 个 确定 的 时 间 、 以 未 来 市 场 决 定 的 价格 买 人 或 者 卖 出 商品 。 这 些 合约 的 技术 细节 超 
过 了 本 书 的 范围 。 但 是 ， 从 客观 的 角度 看 ， 这 意味 着 我 们 的 交易 系统 将 可 以 采取 两 种 交易 头寸 : [130 
多 头头 寸 〈 也 称 为 多 头 仓位 ) 和 空头 头寸 〈 也 称 为 空头 仓位 ) 。 多 头头 寸 是 指 在 上 上 时刻、 以 价格 
了 买 人 商品 ， 随 后 在 时 刻 上 +x 卖 出 。 当 交易 者 预期 未 来 价格 上 涨 时 ， 这 样 的 头寸 对 交易 者 来 说 是 
有 意义 的 ， 进 行 这 种 交易 使 他 获取 利润 。 做 空头 头寸 时 ， 交 易 者 在 时 刻 上 、 以 价格 卖 出 证 券 ， 
同时 他 们 有 义务 在 未 来 买 回 同样 的 证 券 。 由 于 可 以 借入 证 券 的 交易 模式 ， 这 种 空头 头寸 也 是 可 
能 的 (有 关 该 模式 的 细节 ， 请 参阅 其 他 文档 例如 维基 百科 ) 。 因 为 当 证 券 价格 下 降 时 ， 他 们 可 
以 在 时 刻 t 后 的 某 个 时 刻 买 人 并 偿还 所 借 证 券 ， 从 而 获 利 。 简 上 略 地 说 ， 当 认为 价格 会 下 降 时 开 空 
头 仓位 ， 认 为 价格 会 上 涨 时 开 多 头 仓 位 。 

给 出 一 组 交易 信号 ， 可 以 有 许多 方式 在 期 货 市 场 上 应 用 它们 。 下 面 将 描述 我 们 的 模型 实验 
中 将 应 用 并 进行 比较 的 一 些 具 有 可 信 性 的 交易 策略 。 由 于 空间 和 时 间 限 制 ， 这 里 不 可 能 进一步 
探讨 该 重要 问题 。 但 是 ， 读 者 可 以 练习 一 些 其 他 具有 可 信 性 的 策略 ， 并 可 以 开发 和 尝试 其 他 可 能 
的 策略 。 

我 们 应 用 的 第 一 个 交易 策略 机 制 是 这 样 的 。 首先 ， 将 在 一 天 股票 收盘 时 执行 所 有 的 决定 ， 也 
就 是 在 了 解 当前 所 有 的 日 报价 信息 后 。 假 设 在 某 日 i 收盘 时 ， 我们 的 模型 提供 证 据 表明 价格 正在 


92° 数据 挖掘 与 R 语言 


下 跌 ， 即 预测 出 一 个 很 低 的 了 值 或 者 一 个 卖 出 的 信号 。 如 果 我 们 现在 持 有 多 头头 二， 那么 模型 给 
出 的 信号 将 被 忽视; 如果 我 们 现在 没有 持 有 多 头 仓 位 ， 我 们 就 可 以 发 出 卖 空 指令 ， 建 立 空头 头 
寸 。 当 这 个 指令 在 未 来 某 个 时 候 以 价格 pr 执行 时 ， 我 们 将 立即 跟 上 其 他 两 个 指令 。 第 一 个 指令 
是 一 个 限 价 购买 的 指令 ， 限 制 价格 为 pr -p% ， 这 里 p% 为 目标 收益 率 。 这 类 指令 只 有 当 市 场 价 
格 达到 或 低 于 限制 价格 时 才 会 执行 。 该 指令 给 出 了 当前 卖 空 操作 的 利润 目标 。 我 们 将 会 等 待 10 
天 以 达到 这 个 目标 。 如 果 指 令 在 最 后 期 限 前 没有 执行 ， 我 们 将 以 第 10 天 的 收盘 价 买 人 。 第 二 种 
指令 是 止 损 指 令 ， 价 格 上 限 是 pr + 1%。 这 种 指令 的 目的 是 限制 我 们 上 面 做 卖 空 操作 的 最 终 损失 。 
如 果 市 场 价 格 到 达 限 定价 格 的 pr+1% ， 那 么 该 指令 将 执行 ， 因 此 我 们 的 损失 可 以 限制 在 1% 。 

如 果 模 型 提供 的 预测 表明 : 价格 将 在 近期 上 涨 ， 表 示 指 标 了 的 预测 值 较 高 或 者 给 出 买 人 信和 号 
时 ， 我 们 将 考虑 开 多 头 仓 位 。 只 有 当 我 们 现在 没有 任何 仓位 时 ， 才 会 建 这 类 仓位 。 带 着 这 个 目 
标 ， 我 们 会 在 时 刻 上、 以 价格 完成 一 个 买 人 指令 。 和 前 面 一 样 ， 我 们 将 立即 跟 上 两 个 新 指令 。 
第 一 个 指令 将 是 卖 出 限制 价 指令 ， 目 标价 格 为 pr +p% ， 只 有 当 价格 高 于 或 等 于 pr +p% 时 ， 这 个 
指令 才 执 行 。 这 种 限 价 指令 和 先前 一 样 有 10 天 的 期 限 。 第 二 种 指令 是 卖 出 止 损 限 制 ， 限 制 价格 

a [131] 为 pr -1% ， 这 将 再 次 限制 我 们 的 最 终 损 失 为 1% 。 

第 一 种 策略 有 些 保守 ， 因为 它 在 任 一 时 刻 只 能 有 一 个 仓位 。 此 外 ， 在 经 过 10 天 等 待 目 标 利 
涧 后 ， 立 即 平 仓 。 我 们 也 会 考虑 一 个 有 更 多 “风险 ”的 交易 策略 。 后 一 策略 与 前 一 个 类 似 ， 如 
果 有 预测 信和 号 表明 价格 上 升 ， 如 果 有 足够 的 资金 ， 那 么 总 是 开 新 的 多 头 仓 位 。 另 外 ， 我 们 可 以 一 
直 等 待 直到 所 持仓 位 到 达 目 标 利润 或 到 达 最 大 人 允许 的 损失 。 

我 们 只 考虑 这 两 个 主要 的 交易 策略 ， 这 两 个 策略 所 应 用 的 参数 可 以 有 细微 的 变化 〈 例 如 ， 
持 有 期 、 预 期 收益 率 ， 或 在 每 个 仓位 上 投资 的 资金 量 ) 。 如 前 所 述 ， 这 里 所 选择 的 两 个 策略 主要 
以 说 明 为 目的 。 

3.5.2 与 交易 相关 的 评价 准则 

3. 3.4 节 阅 述 过 的 模型 性 能 的 衡量 标准 不 能 直接 应 用 到 本 案例 的 应 用 中 。 本 案例 模型 性 能 的 
衡量 需要 与 经 济 效益 相 结合 。 在 本 案例 的 背景 下 ， 像 经 济 效益 和 一 些 金融 工具 所 暴露 的 风险 等 
指标 是 本 案例 的 模型 需要 考虑 的 关键 指标 。 这 些 指标 可 能 就 需要 一 章 的 篇 幅 来 进行 说 明 。R 的 性 
能 分 析 添 加 包 PerformanceAnalytics (Carl and Peterson, 2009) 实现 了 分 析 某 些 交 易 算法 性 能 的 诸 
多 金融 指标 ， 例 如 分 析 本 章 交 易 的 一 些 金融 指标 。 我 们 将 使 用 这 个 添加 包 所 提供 的 函数 收集 我 
们 需要 的 经 济 效益 指标 信息 。 我 们 的 交易 评估 将 关注 方法 的 整体 效果 、 风 险 暴露 和 根据 模型 提 
示 所 建立 的 每 个 仓位 (头寸 ) 的 平均 结果 。3.7 节 介 绍 的 对 我 们 给 出 的 交易 系统 的 最 终 评估 中 ， 
我 们 将 使 用 这 个 添加 包 所 提供 的 工具 进行 更 深入 的 交易 系统 性 能 分 析 。 

我 们 将 使 用 以 下 3 个 指标 来 衡量 交易 的 整体 结果 : 1) 初始 资本 与 测试 期 期 末 资 本 之 间 的 净 
差额 (有 时 称 为 利润 /损失 ); 2) 净 差额 所 代表 的 百分比 收益 率 ; 3) RAR AR H a e 
报 。 这 个 策略 包括 在 测试 期 开始 开 多 头 仓 位 和 等 待 到 最 后 平 仓 。 用 购买 并 持 有 的 收益 来 衡量 我 
们 的 交易 策略 和 这 个 简单 策略 之 间 的 差异 。 

对 于 与 风险 相关 的 测量 ,我 们 将 使 用 夏普 比率 系数 测量 每 单位 风险 的 回报 ， 风 险 由 收益 的 
标准 偏差 来 衡量 。 我 们 也 将 计算 出 跌幅 最 大 值 (最 大 回 撤 ) ， 以 测量 出 模型 的 最 大 连续 累积 损 
失 。 对 于 交易 者 ， 这 是 一 个 重要 的 风险 测量 ， 若 系统 有 一 个 严重 的 最 大 回 撤 ， 就 可 能 导致 没有 资 

金 来 投 入 该 交易 系统 ， 因 为 投资 者 肯定 会 害怕 这 些 连 续 亏 损 并 撤 出 他 们 的 资金 。 

最 后 ， 根 据 测试 期 所 持 有 仓位 的 数量 、 每 个 仓位 的 平均 收益 、 列 利 仓 位 的 百分比 以 及 其 他 相 

关 性 不 大 的 绩效 指标 来 评估 它们 的 效果 。 
3.5.3 ”模型 集成 : 仿真 交易 
本 节 将 描述 如 何 实 现 前 面 几 节 通 过 模型 给 出 的 信号 来 进行 交易 的 想法 。 本 书 给 出 的 添加 包 





第 3 章 预测 股票 市 场 收益 93 


提供 的 函数 trading. simulator() 把 上 面 的 想法 结合 在 一 起 ， 实 现 对 任何 模型 给 出 的 信号 进行 交易 
仿真 的 功能 。 这 个 函数 的 主要 参数 是 仿真 期 间 的 市 场 报价 和 同一 时 期 的 模型 信号 。 另 外 两 个 参 
数 是 自 定 义 交 易 策略 的 函数 及 其 参数 列表 。 最 后 ,我们 也 可 以 指定 每 一 笔 交 易 的 成 本 和 交易 者 
能 够 提供 的 初始 资本 。 模 拟 器 会 在 每 天 收盘 时 调用 用 户 提供 的 交易 策略 函数 ， 而 用 户 交易 策略 
函数 应 该 返回 它 需要 模拟 器 执行 的 交易 指令 。 模 拟 器 在 市 场 上 执行 这 些 指令 并 用 多 个 数据 结构 记 
录 下 所 有 的 交易 活动 。 模 拟 的 结果 是 一 个 tradeRecord 类 对 象 ， 它 包含 该 次 仿真 的 信息 。 这 个 对 象 可 
以 用 于 获取 经 济 评估 指标 的 函数 或 绘制 交易 活动 图 表 的 函数 ， 这 些 将 在 之 后 的 操作 中 看 到 。 

在 给 出 这 种 类 型 的 仿真 实例 之 前 ， 我 们 需要 提供 用 于 模拟 器 的 交易 策略 函数 的 更 多 细节 。 
应 该 使 用 某 种 协议 来 编写 这 些 函 数 ， 也 就 是 说 ， 它 们 应 该 意识 到 模拟 器 将 如 何 调用 它们 ， 同 时 它 
们 如 何 返回 模拟 器 所 期 望 的 信息 。 

每 一 个 股票 交易 日 4 收盘 之 后 ， 模 拟 器 用 四 个 主要 参数 以 及 用 户 提供 的 任何 其 他 参数 来 调用 
交易 策略 函数 。 这 四 个 参数 是 : 1) 含有 直到 4 天 的 预测 信号 的 一 个 向 量 ; 2) 市 场 报价 (直到 d 
K); 3) 当前 持仓 情况 ; 4) 交易 者 当前 可 使 用 的 资金 。 当 前 持仓 情况 是 一 个 矩阵 ， 该 矩阵 的 行 
数 与 4 天 收盘 时 的 持仓 数 相等 。 该 矩阵 有 4 列 ;:“pos. type” 为 1 代表 多 头 仓 位 ，- 1 代表 空头 仓 
位 ;“N. stocks” 是 该 仓位 中 的 股票 数 ;“Odate” 是 指 开 仓 的 日 期 (日 期 在 1 ~d 之 间 ); 
“Oprice” 是 开 仓 时 的 价格 。 这 个 矩阵 的 行 名称 含 有 仓位 的 标识 符 ( ID) ， 当 我 们 需要 模拟 器 平 仓 
某 个 特定 仓位 时 需要 用 到 该 人 D。 

所 有 这 些 模 拟 器 提供 的 信息 能 确保 用 户 可 以 定义 一 个 较 大 的 交易 策略 函数 集合 。 用 户 自 定 
义 的 策略 函数 应 该 返回 一 个 含有 交易 指令 集合 的 数据 框 ， 返 回 的 交易 指令 将 由 模拟 器 执行 。 这 
个 交易 指令 数据 框 应 包括 以 下 信息 ( 列 ) : “order” 为 1 代表 买 人 指令 ，- 1 代表 卖 出 指令 ; 
“order. type” 为 1 代表 需要 立刻 执行 的 市 场 指令 〈 实 际 上 是 以 次 日 的 开盘 价 执行 )，2 代表 限 价 
指令 ，3 代表 止 损 指 令 ;“val” 是 指 开 仓 指令 中 的 交易 股票 数量 ; NA 是 指 平 仓 指令 ， 或 者 限 价 
指令 与 止 损 指 令 中 的 目标 价格 ; “action” 的 值 是 “open” 代 表 开 新 仓位 指令 ， 或 者 取 值 为 
“close” 代 表 平 仓 已 有 仓位 的 指令 ; 最 后 ,“posID” 如 果 取 值 非 室 ， 其 内 容 是 需要 平 仓 的 仓位 蔬 。 

下 面 是 用 户 定 义 的 交易 策略 的 示例 : 


> policy.1 <- function(signals,market,opened.pos,money, 
十 bet=0.2,hold.time=10, 
exp.prof=0.025, max.loss= 0.05 

) 


ra 


d <- NROW(market) # this is the ID of today 
orders <- NULL 

nOs <- NROW(opened.pos) 

# nothing to do! 

if (!nOs && signals[d] == 'h') return (orders) 


# First lets check if we can open new positions 
# i) long positions 
if (signals[d] == 'b' && !nOs) { 
quant <- round (bet*money/market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame(order=c(1,-1,-1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1+exp.prof), 
market [d,'Close'] *(1-max. loss) 


), 


十 十 十 十 十 十 十 二 十 十 十 十 十 二 十 十 十 十 二 十 


94+ 数据 挖 所 与 R 语言 
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PHL policy. 1() 实现 了 3.5.1 节 中 所 描述 的 第 一 条 交易 策略 。 该 函数 有 四 个 参数 用 来 调整 
这 个 策略 。 这 四 个 参数 分 别 是 : 参数 bet 指明 我 们 每 次 开 新 仓位 时 所 投资 的 金额 占 当 前 资金 的 百 
分 比 ; 参数 exp. prof 表明 我 们 所 期 望 的 当前 仓位 的 收益 率 ， 当 我 们 执行 限 价 指令 的 时 候 会 用 到 该 
参数 ; 参数 max. loss 表明 平 仓 前 我 们 所 能 承受 的 最 大 损失 ， 该 参数 用 于 止 损 指 令 ; 参数 
hold. time 表明 为 实现 指定 收益 率 ， 我 们 愿意 等 待 的 天 数 。 如 果 等 待 了 hold. time 天 ， 仍 然 没 有 得 


action = c('ọpen','close','close'), 
posID = c(NA,NA,NA) 
) 
2 


# ii) short positions 
} else if (signals[d] == 's' && !nOs) { 
# this is the nr of stocks we already need to buy 
# because of currently opened short positions 
need2buy <- sum(opened.pos [opened.pos[,'pos.type']==-1, 
"N.stocks"])*market [d,'Close'] 
quant <- round (bet*(money-need2buy) /market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
‘data. frame (order=c(-1,1,1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1-exp.prof), 
market [d,'Close!]*(1+max. loss) 
action = c('open','close','close'), 
posID = c(NA,NA, NA) 
) 
) 
} 


# Now lets check if we need to close positions 
# because their holding time is over 
if (n0s) 
for(i in 1:n0s) { 
if (d - opened.pos[i,'Odate'] >= hold.time) 
orders <- rbind(orders, 
data. frame (order=-opened.pos[i,'pos.type'], 
order.type=1, 
val = NA, 
action = 'close', 
posID = rownames (opened. pos) [i] 
) 
) 
} 


orders 


到 想 要 的 收益 率 ， 该 仓位 将 被 平 仓 。 


注意 ， 每 当 我 们 建立 一 个 新 的 仓位 时 ， 我 们 给 模拟 器 发 送 三 条 指令 : 一 个 当前 市 场 价 开 立 新 


的 仓位 指令 ， 一 个 限 价 指令 来 指明 我 们 的 目标 收益 率 和 一 个 止 损 指令 限制 我 们 的 损失 。 


同样 ， 以 下 函数 实现 我 们 的 第 二 个 交易 策略 ; 
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> policy.2 <- function(signals,market, opened.pos,money, 
+ bet=0.2,exp.prof=0.025, max.loss= 0.05 
) 
{ 
d <- NROW(market) # this is the ID of today 
orders <- NULL 


++ ++ 


n0s <- NROWCopened. pos) 
# nothing to do! . 
if (!nOs && signals[(d] == 'h') return(orders) 


# First lets check if we can open new positions 
# i) long positions 
if (signals[d] == 'b') { 
quant <- round (bet*money/market [d,'Close'] ,0) 
if (quant > 0) 
orders <~ rbind(orders, 
data. frame (order=c(1,-1,-1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1texp.prof), 
market [d,'Close']*(1-max. loss) 
), 
action = c(‘open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 


# ii) short positions 
} else if (signals[d] == 's') { 
# this is the money already committed to buy stocks 
# because of currently opened short positions 
need2buy <- sum(opened.pos[opened.pos[,'pos.type']==-1, 
"N, stocks") ) *market [d,'Close'] 
quant <~ round (bet*(money-need2buy) /market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame (order=c(-1,1,1) ,order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1-exp.prof), 
market [d,'Close'] *(1+max. loss) 
) » 
action = ¢('open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 
} 


orders 


} 
这 个 函数 与 之 前 的 第 一 个 交易 策略 函数 非常 相似 。 它 们 的 主要 差异 在 于 : 该 交易 策略 允许 
在 同一 时 间 开 立 多 个 仓位 ， 也 没有 限制 平 仓 的 时 间 。 
定义 了 交易 策略 函数 之 后 ， 我 们 就 准备 好 了 来 尝试 交易 模拟 器 。 为 了 演示 方便 ， 我 们 将 选择 
数据 集中 的 一 个 较 小 数据 子 集 ， 建 立 支持 向 量 机 模型 ， 然 后 用 该 模型 来 获取 之 后 一 个 时 间 段 的 
136 
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预测 值 。 在 某 个 交易 策略 下 ， 用 预测 值 来 调用 交易 模拟 器 ， 得 到 利用 支持 向 量 机 的 交易 信号 所 获 
得 的 交易 结果 。 代 码 如 下 : 
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> # Train and test periods 

> start <- 1 

> len.tr <- 1000 

> len.ts <- 500 

> tr <- start: (start+len.tr-1) 

> ts <- (starttlen.tr): (start+len.tr+len.ts-1) 
> # getting the quotes for the testing period 

> data(GSPC) 

> date <- rownames (Tdata.train[starttlen.tr,]) 

> market <- GSPC[paste(date,'/\,sep="')] [1:len.ts] 
> # learning the model and obtaining its signal predictions 

> library (e1071) 

> s <- avm(Tform, Tdata.train[tr,],cost=10,gamma=0.01) 

> p <- predict (s,Tdata.train[ts,]) 

> sig <- trading.signals(p,0.1,-0.1) 

> # now using the simulated trader 

> ti <- trading.simulator (market,sig, 

+ ‘policy.1', list (exp.prof=0.05, bet=0.2, hold. time=30)) 


请 注意 ， 要 运行 以 上 代码 ,你 必须 提前 创建 用 于 建 模 的 数据 对 象 ， 具 体 方法 请 参见 
3.3.3 节 。 

在 调用 交易 模拟 器 时 ， 我 们 采用 第 一 种 交易 策略 ， 提 供 了 一 些 不 同 的 值 给 它 的 某 些 参数 。 我 
们 使 用 默认 的 交易 成 本 (5 个 货币 单位 ) 、 默 认 的 初始 资本 (100 万 货币 单位 )。 指 令 的 结果 是 一 
个 tradeRecord 类 对 象 。 我 们 可 以 检查 该 返回 对 象 的 内 容 ， 如 下 所 示 : 


> ti 
Object of class tradeRecord with slots: 


trading: <xts object with a numeric 500 x 5 matrix> 
positions: <numeric 16x 7 matrix> 

init.cap : 1e+06 

trans.cost : 5 

policy.func : policy.1 

policy.pars : <list with 3 elements> 


> summary (t1) 
== Summary of a Trading Simulation with 500 days == 


Trading policy function : policy.1 
Policy function parameters: 
exp.prof = 0.05 
pet = 0.2 
hold.time = 30 


Transaction costs : 5 
Initial Equity : 1e+06 
Final Equity ; 997211.9 Return: -0.28 % 


Number of trading positions: 16 
Use function "tradingEvaluation()" for further stats on this simulation. 


函数 tradingEvaluation() 用 于 获得 在 模拟 交易 期 间 的 一 系列 表示 交易 效果 的 经 济 指标 : 
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> tradingEvaluation(t1) 


NTrades NProf PercProf PL Ret RetOverBH 
16.00 8.00 50.00 -2788.09 -0.28 -7.13 
MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 

59693.15 0.00 4.97 -4.91 0.03 5.26 

MaxLoss 

-5.00 


也 可 以 使 用 函数 plot( ) ， 绘 制 一 个 交易 效果 的 概览 图 : 


> plot(ti, market, theme = "white", name = "SP500") 
该 命令 的 结果 如 图 3-6 所 示 。 


SP500 9874-02-04 01-00:00/1976-01-26.01:00:00) 2 









Equity () 
997211.913 








We, TOS 





ce 
图 3-6 在 支持 向 量 机 的 预测 信号 基础 上 ， 应 用 第 一 个 策略 的 交易 结果 


图 3-6 显示 这 个 交易 的 效果 不 好 ， 收 益 率 为 负 值 。 如 果 采 用 第 二 个 交易 策略 ， 交 易 结 果 会 不 
同 吗 ? 看 看 下 面 的 代码 : 

> t2 <- trading.simulator(market, sig, "policy.2", list(exp.prof = 0.05, 

+ bet = 0.3)) 

> summary (t2) 





== Summary of a Trading Simulation with 500 days == 


Trading policy function : policy.2 
Policy function parameters: 
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exp.prof = 0.05 


bet = 0.3 
Transaction costs : 5 
Initial Equity ; 1e+06 
Final Equity : 961552.5 Return: -3.84 % 


Number of trading positions: 29 
Use function "tradingEvaluation()" for further stats on this simulation. 


> tradingEvaluation(t2) 


NTrades NProf PercProf PL Ret RetOverBH 
29.00 14.00 48.28 -38447.49 -3.84 -10.69 
MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 

156535 .05 -0.02 4.99 -4.84 -0.10 5.26 

MaxLoss 

-5.00 


使 用 相同 的 交易 信号 ， 但 应 用 不 同 的 交易 策略 ， 收 益 率 从 -0.27% 下 降 到 了 -2. 86% 。 让 我 

们 用 一 个 不 同 的 训练 和 测试 时 间 段 再 做 一 次 上 述 的 实验 : 

start <- 2000 

len.tr <- 1000 

len.ts <- 500 

tr <- start: (start + len.tr - 1) 

ts <- (start + len.tr): (start + len.tr + len.ts - 1) 

s <- svm(Tform, Tdata.train[tr, J], cost = 10, gamma = 0.01) 

p <- predict(s, Tdata.train[ts, ]) 

sig <- trading.signals(p, 0.1, -0.1) 

t2 <- trading.simulator (market, sig, "policy.2", list(exp.prof = 0.05, 
bet = 0.3)) 

summary (t2) 
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== Summary of a Trading Simulation with 500 days == 


Trading policy function : policy.2 
Policy function parameters: 
exp.prof = 0.05 


bet = 0.3 
Transaction costs : 5 
Initial Equity : 1e+06 
Final Equity : 107376.3 Return : -89.26 % 


Number of trading positions: 229 


Use function "tradingEvaluation()" for further stats on this simulation. 


> tradingEvaluation(t2) 


NTrades NProf PercProf PL Ret RetOverBH 
229.00 67.00 29.26 -892623.73 -89.26 -96.11 
MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 
959624 . 80 -0.08 5.26 -4.50 -1.65 5.26 
MaxLoss 
-5.90 


37 这 次 模拟 交易 应 用 了 相同 的 建 模 技术 和 相同 的 交易 策略 ， 获 得 了 相当 糟糕 的 结果 。 这 里 得 
H 到 的 主要 经 验 是 ; 需要 可 靠 的 统计 估计 。 不 要 被 少数 几 次 的 重复 实验 结果 所 愚弄 ， 即 使 测试 期 区 
140| 间 为 两 年 也 是 不 够 的 。 我 们 需要 不 同 条 件 下 更 多 的 重复 次 数 ， 以 确保 所 得 到 的 结果 在 统计 上 是 
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可 靠 的 。 对 于 时 间 序 列 模 型 尤其 如 此 ， 这 类 模型 的 不 同时 期 可 能 有 不 同 的 模式 (例如 ,不同 的 
时 期 有 不 同 的 波动 率 或 不 同 的 趋势 ) 。 这 是 3. 6 节 将 要 讨论 的 问题 。 


3.6 ”模型 评价 和 选择 


本 节 将 学 习 如 何 获 取 模 型 交易 效果 评价 指标 的 可 靠 估计 ， 这 些 指标 的 估计 值 可 以 使 我 们 合 
理 地 对 多 个 不 同 的 交易 系统 进行 比较 和 选择 。 

3.6.1 蒙特 卡 罗 估计 

时 间 序 列 问题 ， 例 如 我 们 正在 处 理 的 问题 ， 给 获取 可 靠 的 模型 评价 指标 的 估计 值 带 来 新 的 
挑战 。 这 是 由 于 所 有 的 时 间 序 列 数据 观察 值 都 附 有 一 个 时 间 标 签 ， 这 个 时 间 标 签 给 出 了 数据 的 
一 个 内 在 顺序 。 这 个 顺序 需要 特别 注意 ， 以 防止 出 现 不 可 靠 估计 值 的 风险 。 在 第 2 章 ， 我 们 用 交 
叉 验证 的 方法 来 获取 评价 指标 的 可 靠 佑 计 值 。 这 种 方法 包括 了 一 个 随机 重新 抽样 步骤 来 改变 原 
始 观测 值 的 顺序 。 这 意味 着 交叉 验证 方法 不 适用 于 时 间 序 列 问题 。 采 用 这 种 方法 意味 着 用 于 模 
型 测试 的 观测 值 可 能 比 用 于 建立 模型 的 训练 集 数据 还 要 时 间 久 远 。 在 现实 中 这 是 不 可 行 的 ， 因 
此 通过 这 个 过 程 获 取 的 估计 值 是 不 可 靠 的 并 且 可 能 过 于 乐观 。 因 为 给 定 未 来 的 观测 值 会 更 容易 
地 预测 过 去 的 观测 值 ， 反 之 则 不 然 。 

运用 时 间 序 列 数据 的 估计 过 程 中 应 当 确 保 用 于 模型 测试 的 数据 比 建立 模型 的 数据 新 。 这 意 
味 着 不 能 对 观测 值 采 用 随机 重新 抽样 的 方法 或 者 其 他 可 能 改变 时 间 序 列 数据 的 时 间 标签 的 过 程 。 
然而 ， 任 何 合 理 的 估计 过 程 应 当 包 括 一 些 随机 选择 过 程 ， 以 确保 所 获取 估计 值 的 统计 可 靠 性 。 这 
包括 了 在 不 同 条件 下 多 次 重复 估计 过 程 ， 最 好 包含 随机 选择 过 程 。 给 定 一 个 时 间 序 列 数据 ， 其 时 
间 区 间 从 时 间 ;~t+N， 我 们 如 何 实 现 带 有 随机 选择 的 重复 估计 过 程 ” 首 先 ， 我们 需 选 择 用 于 模 
型 估计 的 训练 集 和 测试 集 数 据 。 这 就 要 决定 用 于 模型 估计 过 程 的 训练 集 和 测试 集 数 据 的 大 小 。 
这 两 个 数据 集 的 大 小 之 和 应 小 于 NN， 这 样 才能 确保 我 们 可 以 从 已 知 数据 集中 随机 选择 用 于 重复 实 
验 的 不 同 数据 集 。 然 而 ， 如 果 我 们 选择 太 小 的 训练 集 ， 它 就 可 能 严重 影响 模型 的 性 能 。 同 样 ， 太 
小 的 测试 集 可 能 会 导致 模型 不 稳定 。 特 别 是 如 果 我 们 怀疑 时 间 序 列 中 存在 模式 变化 ， 我 们 希望 
在 这 种 模式 变化 情况 下 测试 模型 ， 测 试 集 太 小 将 导致 问题 。 

我 们 的 数据 集 包括 大 约 30 年 的 每 日 报价 。 这 里 对 所 有 模型 都 设置 测试 集 为 5 年 的 日 报价 数 
E, UARA 10 年 的 日 报价 数据 。 这 种 设置 确保 了 训练 集 和 测试 集 充分 大 。 而 且 ， 由 于 我 们 有 
30 年 的 日 报价 数据 ， 所 以 这 种 样本 量 的 选择 就 为 测试 过 程 重复 不 同 的 设置 留 下 了 空间 。 

在 实验 方法 上 ， 我 们 选择 蒙特 卡 罗 实 验 来 获取 模型 评估 指标 的 可 靠 估计 。 蒙 特 卡 罗 方 法 依 
靠 随机 取样 来 获取 估计 结果 。 我 们 将 用 这 个 取样 过 程 在 30 年 日 报价 数据 中 选择 一 个 由 展 个 数据 
点 构成 的 集合 。 对 于 集合 中 的 每 一 个 随机 选取 的 时 间 点 +， 我 们 用 这 个 时 间 点 之 前 10 年 的 日 报价 
数据 来 获取 模型 并 用 这 个 点 之 后 5 FARRER. UTR KER, BATHE 
个 性 能 评估 指标 的 情 个 估计 值 。 每 一 个 指标 估计 信和 都 是 通过 随机 选取 的 15 年 数据 窗口 得 到 的 ， 
前 10 年 用 做 训练 模型 ， 后 5 年 用 做 测试 模型 。 这 种 设置 确保 了 时 间 序 列 数据 的 时 间 排 序 。 重 复 
这 个 过 程 R 次 ,将 确保 有 充分 变化 的 训练 和 测试 条 件 ， 这 就 增加 了 估计 值 的 可 靠 性 。 而 且 ， 如 
果 我 们 在 评估 不 同 模 型 时 用 同样 一 组 随机 选取 的 R 个 数据 点 ， 那 么 就 能 够 进行 配对 比较 ， 从 而 
得 到 不 同 模 型 的 平均 性 能 之 差 的 统计 置信 和 度 水 平 。 图 3-7 总 结 了 上 面 描述 的 蒙特 卡 罗 实 验方 法 ， 
注意 对 每 一 个 随机 点 r+， 必须 确保 它 之 前 有 10 年 数据 ， 它 之 后 有 5 年 的 数据 ， 这 就 使 某 些 数据 点 
被 排除 在 随机 选择 的 尺 个 数据 点 之 外 。 


100 + Reis R 语言 


period available for sampling 
go yr? | 
=| 
$ i=2 [ys 
Q e Ld 
ð 3 : 
poa [toy ë T sy | 
$ i=R 


图 3-7 蒙特 卡 罗 实 验 过 程 


第 2 章 中 用 于 进行 6 折 交 又 验证 实验 的 函数 experimentalComparison( ) ， 也 可 以 用 于 蒙特 卡 罗 
[142] 实验 。 在 3. 6.2 节 ， 我们 将 使 用 这 个 函数 获取 多 个 交易 系统 性 能 评价 指标 的 可 靠 估计 。 
3.6.2 实验 比较 

本 节 描 述 一 组 蒙特 卡 罗 实 验 ， 它 们 用 于 获取 在 3. 3.4 节 和 3. 5.2 节 提 到 的 模型 性 能 评价 指标 
的 可 靠 估计 。 用 于 这 些 实验 的 数据 是 在 3. 3. 3 节 结 尾部 分 生成 的 数据 集 。 

在 这 些 实验 中 所 考虑 每 一 个 模型 都 会 使 用 三 个 不 同 的 模型 更 新 设置 。 这 些 更 新 方式 已 经 在 
3.4.1 节 描 述 过 ， 它 们 是 应 用 于 所 有 5 年 测试 集 的 单一 模型 、 滑 动 窗口 或 者 增长 窗口 。 本 书 有 两 
个 函数 可 以 使 用 具有 任何 窗口 模式 的 模型 。 函 数 slidingWindow( ) 和 函数 growingWindow() 都 有 
5 个 主要 参数 ， 第 一 个 参数 是 leaner 类 对 象 ， 在 第 2 章 我 们 应 用 过 该 类 对 象 ， 它 用 来 保存 模型 的 
所 有 细节 〈 函数 名 和 参数 值 ) ; 第 二 个 参数 是 描述 预测 任务 的 公式 ; 第 三 个 参数 和 第 四 个 参数 分 
别 设 置 训练 集 和 测试 集 数 据 ; 第 五 个 参数 是 窗口 模式 所 应 用 的 重 训练 步 又， 在 这 个 参数 指定 测 
试 个 案 的 数量 之 后 ， 将 对 刚刚 获得 的 模型 所 应 用 的 训练 集 数据 进行 滑动 或 者 增长 ， 然 后 重新 训 
练 模型 。 两 个 函数 都 使 用 相应 的 窗口 模式 返回 测试 集 的 模型 预测 值 。 

下 面 的 代码 创建 了 一 组 函数 ， 它 们 用 于 执行 比较 不 同 交易 系统 的 整个 “训练 + 测试 + 评估 ” 
过 程 周期 。 按 照 图 3-7 所 示 的 蒙特 卡 罗 实 验 模式 ， 蒙 特 卡 罗 过 程 将 在 不 同 的 “训练 + 测试 ”时 期 
中 调用 这 些 函 数 。 代 码 如 下 : 


> MC.svmR <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
+ wed f{ 

require (61071) 

t <- svm(form, train, ...) 

p <- predict(t, test) 

trading.signals(p, b.t, s.t) 





} 
MC.svmC <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
2 T 
require (e1071) 
tgtName <- all.vars(form) [1] 
train[, tgtName] <- trading.signals(train[, tgtName], 
b.t, s.t) 
t <- svm(form, train, ...) 
p <- predict(t, test) 
factor(p, levels = c("s", "h", "b")) 
2} 
MC.nnetR <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
wD { 
require (nnet) 
t <- nnet(form, train, ...) 
p <- predict(t, test) 


二 二 十 十 V+ 十 十 十 十 十 十 十 二 V+ 十 十 十 十 


第 3 章 预测 股票 市 场 收益 101 


trading.signals(p, b.t, s.t) 


了 
MC.nnetC <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
..) & 
require (nnet) 
tgtName <- all.vars(form) [1] 
train[, tgtName] <- trading.signals(train[, tgtName], 
b.t, s.t) 
t <- nnet(form, train, ...) 
p <- predict(t, test, type = "class") 
factor(p, levels = c("s", "h", "b")) 
} 
MC.earth <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
a f 
require (earth) 


t <~ earth(form, train, ...) 
p <- predict(t, test) 
trading.signals(p, b.t, s.t) 
了 
single <- function(form, train, test, learner, policy.func, 
.0 
p <- do.call(paste("MC", learner, sep = "."), list (form, 
train, test, ...)) 
eval.stats(form, train, test, p, policy.func = policy.func) 
} 
Slide <- function(form, train, test, learner, relearn.step, 
policy.func, ...) { 
real.learner <- learner(paste("MC", learner, sep = "."), 
pars = list(...)) i 
p <- slidingWindowTest (real.learner, form, train, test, 
relearn.step) 
p <- factor(p, levels = 1:3, labels = c("s", "h", "b")) 
eval.stats(form, train, test, p, policy.func = policy.func) 
} 
grow <- function(form, train, test, learner, relearn.step, 
policy.func, ...) { 
real.learner <- learner(paste("MC", learner, sep = "."), 
pars = list(...)) 
p <- growingWindowTest (real.learner, form, train, test, 
relearn.step) 
p <- factor(p, levels = 1:3, labels = c("s", "h", "b")) 
eval.stats(form, train, test, p, policy.func = policy.func) 
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+ 


+} 

函数 MC. x( ) 应 用 所 给 的 公式 和 训练 集 来 获得 不 同 的 模型 ， 并 且 用 已 给 的 测试 集 来 测试 这 
些 模型 ， 然 后 返回 模型 的 预测 值 。 如 果 可 能 ， 我 们 会 有 两 个 版 本 的 模型 : 一 个 版 本 是 回归 任务 
(返回 的 模型 名 以 字母 “R” 结 尾 ) ， 另 一 个 版 本 是 分 类 任务 (返回 的 模型 名 以 “C” 结 尾 )。 注 [143 
意 ， 这 两 个 模型 得 到 的 最 后 预测 信和 号 的 预 处 理 和 后 处 理 步 又 是 不 同 的 。 这 些 函 数 被 函数 single( ) 、 
函数 slide( ) 和 函数 grow() 调用 ， 这 三 个 函数 通过 使 用 参数 learner 所 指定 的 模型 和 相应 的 模型 
更 新 机 制 来 获得 测试 集 的 预测 值 。 在 获取 预测 值 之 后 ， 这 些 函 数 会 调用 下 面 的 函数 eval. stats( ) 
来 得 到 想 要 估计 的 模型 评价 指标 统计 量 。 函 数 eval. stats() 的 实现 如 下 : 


> eval.stats <- function(forn, train, test,preds,b.t=0.1,8s.t=-0.1,...) { 
+ # Signals evaluation 
+ ` tgtName <- all.vars(form) [1] 
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+ test[,tgtName] <- trading.signals(test[,tgtName] ,b.t,s.t) 
+ st <- sigs.PR(preds, test [,tgtName] ) 

+ dim(st) <- NULL 

+ names(st) <- paste(rep(c('prec','rec'),each=3), 

+ e('s','b','sb'), sep=".') 

+ 

+ # Trading evaluation 

+ date <- rownames (test) [1] 

+ market <- GSPC[paste(date,"/",sep=")][1:length(preds) ,] 
+ tyrade.res <- trading.simulator (market,preds,...) 

+ 

+ c(st,tradingEvaluation(trade.res)) 

+} 


函数 eval. stats( ) 用 其 他 两 个 函数 来 收集 信号 的 决策 精确 度 、 回 溯 精 确 度 ， 以 及 其 他 几 个 经 
济 评价 指标 。 函 数 sigs PR ( ) 接收 的 参数 是 预测 信号 和 真实 信号 ， 它 分 别 计算 卖 出 、 买 人 和 
“ 卖 出 + 买 人 ”信号 的 决策 精确 度 和 回 测 精 确 度 。 另 一 个 函数 是 tradingEvaluation() ， 它 用 来 获得 
给 定 交 易 记 录 的 经 济 评价 指标 ， 而 这 个 交易 记录 是 用 函数 trading. simulator( ) 获取 的 ， 该 函数 可 
用 来 按照 模型 信号 在 市 场 上 进行 模拟 交易 。 以 上 所 有 这 些 函 数 已 在 3. 5. 3 节 中 充分 介绍 过 。 

在 蒙特 卡 罗 程 序 中 调用 适当 参数 设置 的 函数 single( ) 、 函 数 slide( ) 和 函数 grow( ) ， 可 以 得 
到 我 们 需要 比较 的 模型 。 以 下 介绍 如 何 建立 一 个 循环 程序 ， 在 循环 中 运行 一 系列 的 交易 系统 ， 并 
调用 这 些 函 数 来 获取 这 些 交 易 系 统 的 性 能 估计 。 每 一 个 交易 系统 由 一 些 具有 特定 参数 的 学 习 模 
型 和 交易 策略 构成 。 交 易 策略 将 指示 交易 中 如 何 应 用 模型 的 预测 信和 号。 下面 我 们 考虑 三 种 交易 
策略 ， 它 们 是 从 3.5.3 节 描 述 的 策略 (policy. 1() 和 policy.2()) 衍生 而 来 ， 以 下 函数 实现 这 三 
个 衍生 策略 : 


> poli <- function(signals,market ,op,money) 

+ policy.1(signals,market,op,money, 

+ bet=0.2,exp.prof=0.025,max.loss=0.05,hold. time=10) 
> pol2 <- function(signals,market , op,money) 

+ policy.1(signals,market,op,money, 

+ bet=0.2, exp. prof=0.05,max.loss=0.05,hold.time=20) 
> pol3 <- function(signals,market,op,money) 

+ policy.2(signals,market,op,money, 

+ bet=0.5,exp.prof=0.05,max.loss=0.05) 


下 列 代码 运行 蒙特 卡 罗 实 验 。 这 里 建议 你 在 运行 下 列 代码 前 要 慎重 考虑 。 即 使 在 速度 相当 
快 的 计算 机 上 ， 也 需要 几 天 才能 运行 完 下 列 程序 。 在 本 书 的 网 站 上 ， 我 们 提供 了 运行 这 个 实验 所 
得 到 的 结果 。 所 以 你 不 用 运行 该 实验 也 可 以 重复 3. 6. 3 节 的 结果 分 析 。 


> # The list of learners we will use 

> TODO <- ¢('svmR','svmC','earth','nnetR' ,'nnetC') 

> # The datasets used in the comparison 

> DSs <- list (dataset (Tform, Tdata.train,'SP500')) 

> # Monte Carlo (MC) settings used 

> MCsetts <- mcSettings (20, # 20 repetitions of the MC exps 
+ 2540, # ~ 10 years for training 

+ 1270, # ”5 years for testing 

+ 1234) # random number generator seed 
> # Variants to try for all learners 

> VARS <- list() 

> VARS$svmR <- list (cost=c(10,150), gamma=c(0.01,0.001), 

+ policy. func=c('polt','po12','po13')) 

> VARS$svmC <- list (cost=c(10,150) ,gamma=c(0.01,0.001), 
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+ policy. func=c('polt','po12','po13')) 
> > VARS$earth <- list(nk=c(10,17),degree=c(1,2),thresh=c(0.01,0.001), 
policy. func=c('polt','pol2' ,'po13')) 
> > vanstanet <- list (linout=T,maxit=750,size=c(5,10), 
decay=c(0.001,0.01), 
policy. func=c('polt','pol2','po13')) 
> > VARS$nnetC <- list (maxit=750,size=c (5,10) ,decay=c(0.001,0.01), 
+ policy. func=c('polt' ,'po12' ,'po13')) 
> # main loop 
> for(td in TODO) { 
assign(td, 
experimental Comparison ( 
DSs, 
c( 
do.call('variants', 
c(list ('single', learner=td) , VARS[[td]], 
varsRootName=paste ('single',td,sep='.'))), 
do.call('variants', 
c(list ('slide', learner=td, 
relearn.step=c(60,120)), 
VARS[[td]], 
varsRootName=paste('slide',td,sep='.'))), 
do.call(‘variants', 
c(list (‘grow', learner=td, 
relearn.step=c(60,120)), 
VARS [[td]], 
varsRootName=paste('single' , td, sep='.'))) 
) ， 
MCsetts) 
) 


# save the results 
save(list=td, file=paste(td,'Rdata',sep='.')) 


本 十 十 十 二 + 十 + 十 十 十 二 十 十 十 十 十 十 十 十 十 二 十 十 


Ww 


MCsetts 对 象 控制 实验 的 总 体 参 数 ， 它 给 出 重复 的 次 数 (20) 、 训 练 集 的 大 小 (2540 天 ~ 10 
年 ) 、 测 试 集 的 大 小 (1270 天 ~5 年 )、 所 用 的 随机 数 生 成 器 的 种 子 。 

列表 VARS 给 出 了 我 们 将 要 实验 的 每 个 模型 的 所 有 参数 变化 ， 列 表 中 给 出 参数 的 所 有 可 能 的 
组 合 就 是 所 有 可 能 的 参数 变化 。 在 3 个 不 同 的 模型 更 新 模式 ( 单 窗口 、 滑 动 窗口 和 增 广 窗 口 ) 
中 运行 每 一 个 参数 变化 。 此 外 ， 对 于 后 面 两 个 模型 更 新 模式 ， 我 们 会 尝试 两 个 重新 训练 步骤 : 60 
天 和 120 天 。 

对 于 svm 模型 ， 我 们 实验 了 4 个 训练 参数 变化 和 3 个 不 同 的 交易 策略 ， 就 有 12 个 模型 变 体 ; 
对 于 earth 模型 ， 实 验 了 24 个 模型 变 体 ， 对 于 mnet 模型 ， 也 实验 了 12 个 模型 变 体 。 每 一 个 模型 
变 体 将 在 单个 模式 及 4 个 窗口 模式 (两 个 策略 和 两 个 不 同 的 重复 训练 步骤 ) 下 运行 。 显 然 ， 这 
将 导致 需要 进行 大 量 的 实验 。 即 ， 一 共有 60 ( =12 +24 +24) 个 svm 模型 变 体 、120 ( =24 +48 
+48) 个 earth 模型 变 体 和 60 个 nnet 模型 变 体 。 它 们 中 的 每 一 个 都 将 对 10 年 的 训练 集 和 5 年 的 
测试 集 重复 执行 20 次 。 这 就 是 为 什么 我 们 说 运行 这 个 实验 需要 花 很 长 时 间 。 然 而 ， 在 描述 这 个 
问题 的 时 候 ， 我 们 提 到 这 里 的 实验 仅仅 是 所 有 解决 方法 中 的 一 个 小 例子 。 其 中 有 太 多 的 “小 ” 
决定 ， 将 导致 我 们 有 其 他 不 同 的 实验 方式 〈 如 买 人 和 卖 出 的 界限 值 以 及 其 他 学 习 系 统 等 ) 。 这 意 
味 着 在 本 案例 的 应 用 领域 ， 任 何 正式 的 尝试 都 需要 大 量 的 计算 资源 来 进行 合适 的 模型 选择 ， 显 
然 这 在 本 书 的 讨论 范畴 之 外 。 这 里 的 目的 是 给 读者 提供 适合 的 方法 指导 而 不 是 对 这 里 的 特定 数 
据 找 出 最 好 的 交易 系统 。 
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3.6.3 结果 分 析 

3.6.2 节 提 供 的 代码 生成 了 5 个 数据 文件 ， 这 些 文件 中 的 对 象 含有 实验 的 5 个 训练 系统 所 有 
模型 变 体 的 实验 结果 。 这 些 数据 文件 被 命名 为 “svmR. Rdata”、“svmC. Rdata”, “earth. Rdata”、 
“nnetR. Rdata” 和 “nnetC. Rdata”。 每 一 个 文件 都 包含 与 文件 相同 名 字 ( 除 文 件 扩展 名 外 ) 的 对 
象 。 这 些 对 象 是 compExp 类 对 象 ， 本 书 添加 包 中 含有 探索 这 些 对 象 所 存储 结果 的 多 种 方法 。 

也 许 你 没有 亲自 运行 这 个 实验 ， 那 么 你 可 在 本 书 网 站 上 找到 这 5 个 数据 文件 ， 将 它们 下 载 到 
计算 机 中 ， 并 运行 以 下 代码 将 这 些 对 象 载 人 R 软件 。 


> load("svmR.Rdata") 
> load("svmC.Rdata") 
> load("earth.Rdata") 
> load("nnetR.Rdata") 
> load("nnetC.Rdata") 


对 于 每 一 个 交易 系统 变 体 ， 我 们 测量 了 多 个 性 能 指标 。 有 些 性 能 指标 用 来 衡量 信号 预测 的 
正确 性 ， 另 一 些 指标 用 来 衡量 应 用 这 些 信号 进行 交易 时 的 经 济 效果 。 根 据 对 实验 中 得 到 这 些 性 
能 指标 的 综合 考虑 ， 决 定 哪 一 个 模型 是 最 好 的 。 最 终 选 定 的 模型 可 能 取决 于 我 们 最 注重 的 那个 
性 能 指标 。 

尽管 性 能 评价 的 指标 有 多 种 ， 但 是 其 中 的 某 些 指标 更 具有 相关 性 。 在 我 们 的 案例 中 ， 在 衡量 
预测 信号 正确 性 的 评价 指标 中 ， 预 测 精确 度 指 标 比 回溯 精确 度 指标 更 重要 。 实 际 上 ， 预 测 精确 度 
和 预测 信号 相关 ， 而 预测 信号 将 决定 是 否 开 立 新 的 仓位 等 交易 行为 。 低 预测 精确 度 是 因为 预测 
信和 号 错误 ， 它 意味 着 在 错误 的 时 间 开 立 仓位 。 这 显然 会 导致 极 大 的 损失 。 而 回溯 精确 度 则 没有 这 
种 潜在 的 损失 ， 它 衡量 模型 捕获 交易 机 会 的 能 力 。 如 果 回 滴 精 确 度 取 值 较 低 ， 就 意味 着 机 会 的 错 
失 ， 但 并 不 意味 着 高 损失 。 因 此 ， 我 们 对 模型 的 “prec. sb” 统 计量 特别 感 兴趣 ， 它 衡量 买 人 信 
号 和 卖 出 信和 号 的 预测 精确 度 。 

对 交易 效果 衡量 而 言 ， 交 易 系统 的 回报 很 重要 (实验 中 的 统计 量 “Ret” )， 买 入 并 持 有 策略 
的 回报 (实验 中 的 统计 量 “RetOverBH”) 也 很 重要 。 瑶 利 交 易 所 占 百 分 比 也 同样 重要 ， 显 然 它 
应 该 在 50% (统计 量 “PercProf”) 以 上 。 在 衡量 风险 分 析 方 面 ， 这 里 考虑 夏普 比率 值 (“Sharp” ) 
和 最 大 回 撤 值 (“ MaxDD” ) 。 

函数 summary() 可 以 用 于 已 经 载 人 的 compExp 对 象 。 然 而 ， 考 虑 到 很 大 数量 的 模型 变 体 和 
性 能 指标 统计 量 ， 输 出 结果 的 内 容 是 相当 多 的 。 

148 另 一 种 方式 是 使 用 本 书 添加 包 提供 的 函数 rankSystems( )。 使 用 这 个 阴 数 ， 可 以 获得 感 兴趣 
的 评价 指标 的 最 优 取 值 ， 它 指出 最 好 的 模型 以 及 相应 的 评价 指标 值 。 代 码 如 下 : 


> tgtStats <- c('prec.sb','Ret','PercProf', 


+ 'MaxDD' ,'SharpeRatio') 
> allSysRes <- join(subset (svmR, stats=tgtStats), 
+ subset (svmC, stats=tgtStats) , 


+ subset (nnetR, stats=tgtStats), 
+ subset (nnetC, stats=tgtStats), 
+ subset (earth, stats=tgtStats), 
+ by = 'variants') 

> rankSystems(allSysRes,5,maxs=c(T,T,T,F,T)) 
$SP500 


$SP500$prec.sb 
system score 
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1 slide.svmC.v5 
2 slide.svmC.v6 
3 slide.svmC.vi3 
4 slide.svmC.vi4 
5 slide.svmC.v21 


H o e o yp 


$SP500$Ret 

system score 
1 single.nnetR.vi2 97.4240 
2 single.svmR.vii 3.4960 
3 slide.nnetR.viS 2.6230 
Single.svmC.vi2 0.7875 
56` single.svmR.v8 0.6115 


中 


$SP500$PercProf 

system score 
1 grow.nnetR.v5 60.4160 
2 grow.nnetR.v6 60.3640 
3 slide.svmR.v3 60.3615 
4 grow.svmR.v3 59.8710 
5 grow.nnetC.vi 59.8615 


$SP500$MaxDD 

system score 
1 slide.svmC.v5 197.3945 
2 slide.svmC.v6 197.3945 
3 = grow.svmC.v5 197.3945 
4 grow.svmC.v6 197.3945 
5 slide.svmC.v13 399.2800 


$SP500$SharpeRatio 
system score 
1 slide.svmC.v5 0.02 
2 slide.svmC.v6 0.02 
3 slide.svmC.vi3 0.02 
4 slide.svmC.vi4 0.02 
5 slide.svmC.v21 0.02 


函数 subset( ) 可 以 应 用 于 compExps 对 象 ， 选 择 存储 在 这 些 对 象 中 的 部 分 信息 。 这 时 ， 
我 们 只 选择 估计 出 的 性 能 指标 的 子 集 。 然 后 ， 我 们 使 用 函数 join( ) 将 所 有 的 模型 变 体 合 在 
一 起 ， 存 储 在 一 个 compExps 对 象 中 。 这 个 函数 可 以 把 具有 不 同 维 数 的 compExps 对 象 结合 在 
一 起 。 本 案例 中 模型 变 体 的 其 他 实验 条 件 是 一 样 的 ， 因 此 这 样 结合 是 有 意义 的 。 最 后 ， 我 
411325 FA PH rankSystems( ) 从 我 们 所 有 的 交易 系统 的 性 能 指标 中 选择 出 分 值 最 高 的 5 个。 最 
好 的 性 能 指标 值 随 指标 不 同 而 变化 。 有 时 我 们 需要 最 高 的 指标 值 ， 有 时 却 需 要 最 低 的 指标 
值 。 这 可 以 用 函数 rankSystems() 中 的 参数 maxs 来 设 定 ， 它 可 以 指定 哪个 指标 需要 最 大 化 
的 取 值 。 

我 们 观察 这 5 个 最 优 性 能 指标 ， 发 现 它们 或 者 采用 svm 算法 ， 或 者 采用 nnet 算法 。 另 一 个 显 
而 易 见 的 模式 是 ， 几 乎 所 有 的 这 些 模型 变 体 都 运用 了 某 个 窗口 机 制 。 这 提供 了 窗口 机 制 优 于 单 
一 模型 的 某 种 证 据 ， 也 可 以 认为 它 确认 了 这 些 数据 有 模式 变化 。 我 们 也 可 以 观察 到 多 个 显著 的 
(或 可 疑 的 ) 分 数 ， 即 买 人 或 者 卖 出 信号 的 预测 精确 度 。 获 得 100% 的 预测 精确 度 是 很 奇怪 的 。 
仔细 检查 这 些 交 易 系 统 的 结果 ， 它 揭示 得 到 这 人 么 高 的 分 数 ， 是 由 于 在 5 年 测试 期 中 有 极 少 的 
信号 。 
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> summary (subset (svmC, 
+ stats=c('Ret','RetOverBH' ,'PercProf' ,'NTrades'), 
+ vars=c('slide.svmC.v5','slide.svmC.v6'))) 


== Summary of a Monte Carlo Experiment == 
20 repetitions Monte Carlo Simulation using: 
seed = 1234 
train size = 2540 cases 


test size = 1270 cases 


* Datasets :: SP500 
* Learners :: slide.svmC.v5, slide.svmC.v6 


* Summary of Experiment Results: 
-> Datataset: SP500 


*Learner: slide.svmC.v5 
Ret RetOverBH PercProf NTrades 


avg 0.0250000 -77.10350 5.00000 0.0500000 
std 0.1118034 33.12111 22.36068 0.2236068 
min 0.0000000 -128.01000 0.00000 0.0000000 
max 0.5000000 -33.77000 100.00000 1.0000000 
invalid 0.0000000 0.00000 0.00000 0.0000000 


«Learner: slide.svmC.v6 
Ret RetOverBH PercProf NTrades 
avg 0.0250000 -77.10350 5.00000 0.0500000 
std 0.1118034 33.12111 22.36068 0.2236068 
min 0.0000000 -128.01000 0.00000 0.0000000 
max 0.5000000 -33.77000 100.00000 1.0000000 
invalid 0.0000000 0.00000 0.00000 0.0000000 


事实 上 ， 这 些 方法 在 整个 测试 期 内 至 多 进行 了 一 次 交易 ， 其 平均 收益 为 0.25% ， 这 上 比 简单 
的 买 人 并 持 有 策略 的 收益 低 -77. 1% ， 这 些 显 然 是 无 用 的 模型 。 . 

对 整体 排名 的 最 后 一 个 评论 是 ， 就 最 大 回 撤 而 言 ， 不 能 认为 模型 太 坏 ， 然 而 夏普 比率 值 是 绝 
对 令 人 失望 的 。 

为 了 得 出 对 所 有 这 些 模 型 变 体 的 结论 ， 需 要 对 这 些 模型 性 能 统计 指标 增加 一 些 约束 条 件 。 
我 们 假设 以 下 最 小 值 : 1) 一 个 合理 的 平均 交易 数量 ， 例 如 需 超过 20; 2) 平均 回报 至 少 大 于 
0.5% (考虑 到 这 些 交 易 系 统 平 均 回 报 的 取 值 较 低 ， 因 此 设 为 该 值 ); 3) 盈利 交易 的 百分比 大 于 
40% 。 现 在 检查 一 下 是 否 有 交易 系统 满足 这 些 约束 条 件 。 


fullResults <- join(svmR, svmC, earth, nnetC, nnetR, by = "variants") 
nt <- statScores(fullResults, "NTrades") [[1]] 

rt <- statScores(fullResults, "Ret") [[1]] 

pp <- statScores(fullResults, “PercProf") [[1]] 

names (nt) [which(nt > 20)] 

82 <- names(rt) [which(rt > 0.5)] 

s3 <- names (pp) [which(pp > 40)] 

namesBest <- intersect (intersect(si, s2), s3) 
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summary (subset (fullResults, 
stats=tgtStats, 
vars=namesBest) ) 


== Summary of a Monte Carlo Experiment == 


20 repetitions Monte Carlo Simulation using: 


seed = 1234 
train size = 2540 cases 
test size = 1270 cases 


* Datasets :: SP500 


* Learners 


* Summary of Experiment Results: 


-> Datataset: SP500 


avg 
std 
min 
max 
invalid 


avg 
stå 
min 
max 
invalid 


max 
invalid 


*Learner: single.nnetR.vi2 
prec.sb Ret PercProf 
0.12893147 97.4240 45.88600 
0.06766129 650.8639 14.04880 
0.02580645 -160.4200 21.50000 


MaxDD SharpeRatio 
1595761.4 -0.01300000 
2205913.7 0.03798892 

257067.4 -0.08000000 


0.28695652 2849.8500 73.08000 10142084.7 0.04000000 


0.00000000 0.0000 0.00000 


*Learner: slide.nnetR.vi5 
prec.sb Ret PercProf 


0.0 0.00000000 


MaxDD SharpeRatio 


0.14028491 2.62300 54.360500 46786.28 0.01500000 
0.05111339 4.93178 8.339434 23526.07 0.03052178 
0.03030303 -7.03000 38.890000 18453.94 -0.04000000 
0.22047244 9.85000 68.970000 99458.44 0.05000000 


0.00000000 0.00000 0.000000 


*Learner: grow.nnetR.v12 
prec.sb Ret PercProf 
0.18774920 0.544500 52.66200 
0.07964205 4.334151 11.60824 
0.04411765 -10.760000 22.22000 
0.33076923 5.330000 72.73000 
0.00000000 0.000000 0.00000 


0.00 0.00000000 


MaxDD SharpeRatio 
41998.26 0.00600000 
28252.05 0.03408967 
18144.11 -0.09000000 

121886.17 0.05000000 
0.00 0.00000000 
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single.nnetR.vi2, slide.nnetR.v15, grow.nnetR.vi2 


为 了 获取 满足 上 述 约束 条 件 的 交易 系统 变 体 的 名 字 ， 我 们 使 用 了 本 书 添加 包 中 的 statScores ( ) 
函数 。 该 函数 的 参数 包括 compExp 对 象 以 及 性 能 指标 的 名 字 ， 在 默认 情况 下 ， 该 函数 提供 所 有 交 
易 系 统 在 这 些 性 能 指标 上 的 平均 值 。 该 函数 的 结果 是 一 个 列表 ， 列 表 的 元 素 个 数 和 实验 中 数据 
集 的 个 数 相同 〈 在 我 们 的 实验 中 是 一 个 单一 数据 集 ) 。 用 户 可 以 在 函数 statScores( ) 的 第 三 个 可 
选 参数 中 指定 一 个 函数 来 获取 另 一 个 数值 汇总 量 ， 而 不 是 平均 值 。 使 用 这 个 函数 获得 的 结果 ， 将 
得 到 满足 每 一 个 约束 条 件 的 交易 系统 的 名 称 。 运 用 函数 intersect( ) 〈 它 是 多 个 指标 值 集 合 的 交 
集 )， 就 可 以 获得 满足 所 有 约束 条 件 的 交易 系统 的 名 称 。 

正如 我 们 看 到 的 ， 在 我 们 比较 的 240 个 交易 系统 变 体 中 只 有 3 个 交易 系统 满足 这 些 最 小 约 
K. MARXI 个 系统 都 应 用 回归 任务 并 且 都 是 基于 神经 网 络 模型 。 这 3 个 模型 以 不 同 的 方式 来 应 
用 训练 集 数据 。 方 法 “single. nnetR. v12” 没 有 应 用 任何 窗口 机 制 ， 并 且 获 得 了 极 高 的 平均 回报 


统 的 回报 很 低 ， 为 - 160. 40% 。 显 然 ， 该 系统 的 结果 是 极其 不 稳定 的 ， 它 的 标准 差 很 大 ， 为 


值 97. 4% 。 然 而 ， 如 果 我 们 仔细 观察 这 个 交易 系统 的 结果 ， 就 会 发 现在 其 中 的 一 次 迭代 ， 该 系 H 
i 
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650. 86% ， 这 也 验证 了 该 系统 结果 的 不 稳定 性 。 另 外 两 个 系统 的 得 分 相似 。 下 面 代码 运用 函数 
compAnalysis( ) 来 对 结果 进行 显著 性 统计 分 析 。 
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> compAnalysis (subset (fullResults, 
+ stats=tgtStats, 
+ vars=namesBest)) 


== Statistical Significance Analysis of Comparison Results == 
Baseline Learner: : single.nnetR.vi2 (Learn.1) 
** Evaluation Metric:: prec.sb 


- Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 


AVG 0.12893147 0.14028491 0.18774920 + 
STD 0.06766129 0.05111339 0.07964205 
** Evaluation Metric:: Ret 


-~ Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 


AVG 97.4240 2.62300 - 0.544500 - 
STD 650.8639 4.93178 4.334151 
** Evaluation Metric:: PercProf 


- Dataset: SP500 

Learn.1 Learn.2 sig.2 Learn.3 sig.3 
AVG 45.88600 54.360500 + 52.66200 
STD 14.04880 8.339434 11.60824 


水 让 Evaluation Metric:: MaxDD 


- Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 


AVG 1595761 46786.28 -~ 41998.26 -- 
STD 2205914 23526.07 28252.05 
** Evaluation Metric:: SharpeRatio 
- Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 
AVG -0.01300000 0.01500000 + 0.00600000 
STD 0.03798892 0.03052178 0.03408967 


Legends: 

Learners -> Learn.1 = single.nnetR.vi2 ; Learn.2 = slide.nnetR.vi5 ; 
Learn.3 = grow.nnetR.v1i2 ; 

Signif. Codes -> 0 '++' or '~-' 0.001 '+ or '-' 0.05 '' 1 


注意 以 上 代码 会 生成 一 些 警告 ， 那 是 由 于 某 些 系统 不 能 获得 某 些 性 能 指标 的 有 效 值 所 导致 
的 (例如 ,没有 买 人 或 者 卖 出 信号 将 导致 无 效 的 决策 精确 度 得 分 ) 。 

尽管 结果 存在 变化 性 ， 但 以 上 Wilcoxon 检验 告诉 我 们 ， 交 易 系 统 “single. nnetR. v2” HP 
均 回 报 以 95% 的 置信 度 大 于 其 他 交易 系统 。 然 而 ， 就 其 他 性 能 指标 而 言 ， 这 个 系统 明显 比 其 他 
系统 差 。 
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通过 绘制 compExp 对 象 ， 可 以 较 好 地 了 解 这 些 性 能 指标 在 20 次 重复 实验 中 的 分 布 情况 。 代 


码 如 下 : 


> plot (subset (fullResults, 
+ stats=c ('Ret','PercProf' ,'MaxDD'), 
+ vars=namesBest) ) 


以 上 代码 的 结果 如 图 3-8 所 示 。 
| SP50 


siide.nnetR.v15 
single.nnetR.v12 口 
grow.nnetR.v12 
1000 1500 2000 2500 
Ret 


slide.nnetR.v15 





single.nnetR.v12 


MaxDD 
图 3-8 最 好 的 3 个 交易 系统 20 次 实验 的 性 能 指标 值 


两 个 应 用 窗口 机 制 的 交易 系统 的 性 能 指标 值 相 似 ， 这 使 得 对 它们 的 区 分 比较 困难 。 相 反 ， 
“single. nnetR. v12” 的 结果 却 明 显 和 上 面 两 个 系统 不 一 样 。 我 们 可 以 发 现 ， 它 之 所 以 能 有 较 高 的 
平均 回报 ， 原 因 是 其 中 的 一 个 蒙特 卡 罗 实 验 有 明显 异常 的 回报 值 (大 约 为 2800% ) 。 这 个 系统 的 
其 他 指标 的 估计 值 看 起 来 要 明显 比 另外 两 个 系统 差 。 为 了 满足 我 们 的 好 奇 ， 可 以 运用 函数 
getVariant( ) 检查 这 个 特定 交易 系统 的 设置 情况 ， 代 码 如 下 : 


> getVariant ("single.nnetR.v12", nnetR) 
Learner:: "single" 


Parameter values 
learner = "nnetR" 
linout = TRUE 
trace = FALSE 
maxit = 750 
size = 10 
decay = 0.01 
policy.func = "pol3" 
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153 从 上 面 的 输出 结果 可 知 ， 该 系统 应 用 了 交易 策略 “pol3”， 使 用 了 含有 10 个 隐藏 层 且 学 习 的 
H 衰变 率 为 0.01 的 神经 网 络 模型 。 

总 之 , 根据 上 面 的 分 析 结 果 ， 如 果 需 要 从 上 面 考虑 过 的 模型 中 选择 一 个 ， 由 于 系统 

“single. nnetR. v12” 的 不 稳定 性 ， 我 们 可 以 不 考虑 这 个 交易 系统 。 然 而 ， 在 3.7 节 中 ， 我 们 用 剩余 

的 最 后 9 年 的 数据 来 测试 本 节 中 得 到 这 三 个 最 好 的 交易 系统 ， 然 后 对 最 好 的 系统 进行 最 后 的 评估 。 


3.7 交易 系统 


本 节 描 述 在 最 后 评估 阶段 获得 的 “最 佳 模型 ”的 结果 ， 这 一 部 分 也 是 模型 比较 和 选择 阶段 
的 任务 之 一 。 最 后 评估 时 期 有 9 年 的 报价 数据 ， 我 们 将 在 这 个 时 期 使 用 模拟 器 ， 应 用 5 个 选 定 的 
交易 系统 进行 交易 。 
3.7.1 评估 最 终 测 试 数据 

为 了 把 任何 一 个 选 定 的 交易 系统 应 用 于 最 后 评估 期 ， 我 们 需要 之 前 紧邻 评估 期 10 年 的 报价 
数据 。 通 过 这 10 年 的 报价 数据 ， 我 们 构建 模型 ， 然 后 应 用 该 模型 预测 9 年 最 终 评估 期 的 交易 信 
号 。 在 应 用 窗口 模型 的 系统 中 ， 可 能 有 多 个 模型 介 人 这 些 预 测 。 

下 面 的 代码 将 获取 这 些 系统 在 9 年 测试 期 数据 上 的 性 能 评估 指标 。 


> data <- tail(Tdata.train, 2540) 
> results <- list() 
> for (name in namesBest) { 


+ sys <~ getVariant(name, fullResults) 
+ results[[name]] <- runLearner(sys, Tform, data, Tdata.eval) 
+} 


> results <- t(as.data. frame (results)) 


我 们 对 3 个 最 优 模 型 进行 循环 ， 用 最 初 的 训练 集 数据 (10 年 ) 和 作为 测试 集 的 评估 期 数据 
来 调用 这 些 模型 。 这 些 调用 需要 应 用 到 之 前 定义 的 函数 single( ) 、 函 数 slide( ) 和 函数 grow( ) o 
之 前 我 们 已 经 看 到 ， 这 些 函 数 的 结果 是 函数 eval. stats() 所 给 出 的 一 系列 性 能 评价 指标 。 在 循环 
结束 后 ， 我 们 把 得 到 的 结果 列表 转变 成 一 个 更 方便 的 表格 格式 。 

下 面 我 们 检查 一 些 主要 的 性 能 指标 值 : 

> results[, c("Ret", "RetOverBH", "MaxDD", "SharpeRatio", "NTrades", 


+ "PercProf")] 

Ret RetOverBH MaxDD SharpeRatio NTrades PercProf 
single .nnetR.vi2 -91.13 -61.26 1256121.55 -0.03 759 44.66 
slide.nnetR.v15 -6.16 23.71 107188.96 -0.01 132 48.48 
grow.nnetR.v12 1.47 31.34 84881.25 0.00 89 53.93 


从 结果 中 可 以 确定 ， 在 9 年 期 间 ，3 个 交易 系统 中 只 有 其 中 一 个 获得 了 正 的 回报 值 ， 其 他 系 
统 则 都 是 损失 的 。 在 这 3 SABER, “single. nnetR. v12” 系统 有 很 低 的 回报 率 ，- 91.13% ， 这 
也 确认 了 该 系统 的 不 稳定 性 。“grow. nnetR. v12” 方 法 看 起 来 明显 较 好 ， 它 不 仅 有 正 的 回报 值 ， 
更 有 一 个 较 小 的 最 大 回 撤 值 ， 其 盈利 的 交易 百分比 在 50% 以 上 上。 但是， 在 这 个 测试 期 ， 除 
“single. nnetR. v12” 系 统 外 ， 其 他 两 个 系统 明显 好 于 简单 的 买 人 并 持 有 的 市 场 策略 ， 它 们 超出 买 
人 并 持 有 策略 的 比例 分 别 为 23.7% Fil 31.4% © 

最 优 模型 具有 以 下 特点 : 


> getVariant ("grow.nnetR.vi2", fullResults) 
Learner:: "grow" 


Parameter values 
learner = "nnetR" 
relearn.step = 120 
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linout = TRUE 

trace = FALSE 

maxit = 750 

size = 10 

decay = 0.001 
policy.func = "pol2" 


下 面 我 们 对 最 优 交易 系统 在 评估 期 的 性 能 做 更 深入 的 分 析 。 为 了 进行 深入 的 分 析 ， 我 们 需 
要 得 到 该 最 优 交易 系统 在 评估 期 的 交易 记录 。 函 数 grow( ) 不 能 给 出 这 些 记录 ， 所 以 我 们 要 通过 
其 他 方法 : 


> model <- learner("MC.nnetR", list(maxit = 750, linout = T, 
+ trace = F, size = 10, decay = 0.001)) 
> preds <- growingWindowTest (model, Tform, data, Tdata.eval, 


+ relearn.step = 120) 
> signals <- factor(preds, levels = 1:3, labels = c("s", "h", 
+ "b")) 


> date <- rownames(Tdata.eval) [1] 

> market <- GSPC[paste(date, "/", sep = "")][1:length(signals), 

+ J ‘ 

> trade.res <- trading.simulator(market, signals, policy.func = “pol2") 


3-9 绘制 了 这 个 最 优 交易 系统 的 交易 记录 ， 绘 制 该 图 的 代码 如 下 : 


> plot(trade.res, market, theme = "white", name = "SP500 - final test") 


Last 1020.62 








| wa i 


图 3-9 交易 系统 “grow. nnetR. v12” 在 最 后 评估 期 的 交易 结果 
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通过 分 析 图 3-9 可 以 看 出 ， 该 系统 在 很 长 时 间 内 几乎 没有 交易 活动 ， 即 在 2003 年 中 期 到 
2007 年 中 期 几乎 没有 交易 行为 。 令 人 相当 惊讶 的 是 ， 在 这 一 段 时 期 , 市场 是 显著 盈利 的 。 它 在 
某 种 程度 上 说 明 ， 尽 管 观察 到 该 系统 的 整体 效果 较 好 ,但 是 它 没有 表现 出 它 应 该 具有 的 性 能 。 另 
外 还 注意 到 ， 在 2000 一 2003 年 的 市 场 整体 下 降 期 间 ， 以 及 在 2007 一 2009 年 的 金融 危机 中 ， 该 交 
易 系 统 表现 得 相当 好 。 
性 能 分 析 添 加 包 PerformanceAnalytics 提供 了 分 析 任 何 交易 系统 性 能 的 大 量 工 具 。 为 更 好 地 理 
解 交易 系统 的 性 能 ， 下 面 我 们 提供 这 些 工具 的 一 个 概览 。 该 添加 包 的 工具 可 以 分 析 和 评估 交易 
156 | 策略 的 回报 。 可 以 用 如 下 代码 得 到 策略 的 回报 : 
> library (PerformanceAnalytics) 
> rets <- Return.calculate(trade.res€trading$Equity) 
请 注意 ， 函 数 Retum. calculate() 计算 的 不 是 我 们 之 前 一 直 应 用 的 收益 百分比 ， 它 计算 出 的 
值 乘 以 因子 100 将 等 于 我 们 之 前 应 用 的 收益 百分比 。 
图 3-10 显示 策略 在 所 有 测试 阶段 的 累积 收益 率 。 通 过 运行 下 面 的 代码 能 够 得 到 图 3-10: 


> chart.CumReturns(rets, main = “Cumulative returns of the strategy", 
+ ylab = "returns") 


Cumulative returns of the strategy 





a” 
2000-01-04 2002-01-02 2004-01-02 2008-01-03 2008-01-02 2008-08-31 
Date 


图 3-10 系统 “grow. nnetR. v12” 在 最 终 评估 期 的 累积 收益 率 


对 于 大 多 数 的 时 期 ， 这 个 系统 的 收益 为 正 值 。 在 2008 年 中 期 ， 系 统 收益 达到 最 大 值 10% 。 

通常 计算 年 收益 率 ， 甚 至 月 收益 率 也 是 很 有 用 的 。 添 加 包 PerformanceAnalytics 也 提供 了 一 些 
工具 来 进行 这 种 分 析 ， 即 也 数 yearlyRetum( ) : 

> yearlyReturn(trade.res@trading$Equity) 


yearly.returns 
2000-12-29 0.028890251 
2001-12-31 ~-0.005992597 
2002-12-31 0.001692791 
2003-12-31 0.013515207 
2004-12-31 0.002289826 
2005-12-30 0.001798355 
2006-12-29 0.000000000 
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2007-12-31 0.007843569 
2008-12-31 0.005444369 
2009-08-31 -0.014785914 


3-11 给 出 了 以 上 年 收益 信息 的 图 形 ， 从 中 可 以 观察 到 只 有 2 年 的 收益 为 负 值 。 


> plot (100*yearlyReturn(trade.res@trading$Equity), 
+ main='Yearly percentage returns of the trading system') 
> abline(h=0, 1ty=2) 


函数 Table. CalendarRetums() 给 出 了 更 详细 的 月 收益 百分比 (其 中 最 后 一 栏 是 该 年 的 总 计 ): 


> table.CalendarReturns (rets) 


Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Equity 
2000 -0.5 0.3 0.1 0.2 00.20.2 0.0 0.0 0.40.4 -0.2 1.0 
2001 0.0 -0.3 0.2 -0.1 00.00.0 0.0 0.4 0.00.0 0.0 0.3 
2002 0.0 -0.1 0.0 -0.2 00.00.2 0.0 -0.3 -0.1 0.0 0.0 -0.5 
2003 0.0 -0.1 0.0 0.0 00.00.00 0.0 0.0 0.00.0 0.0 -0.1 
2004 0.1 0.0 0.0 0.0 00.00.0 0.0 0.0 0.00.0 0.0 0.0 
2005 0.0 0.0 0.0 -0.2 00.000 0.0 0.0 0.00.0 0.0 -0.2 
2006 0.0 0.0 0.0 0.0 00.00.0 0.0 0.0 0.00.0 0.0 NA 
2007 0.0 0.0 0.0 0.2 00.00.0 -0.2 0.0 -0.2 0.2 0.1 0.0 
2008 -0.3 0.5 0.1 0.1 00.00.3 0.0 0.9 0.30.2 0.3 2.3 
2009 -0.5 0.0 -0.2 0.0 00.00.0 0.0 NA NA NA NA -0.6 


Yeasty percentage retums of the trading system 





Dec Dec Dec Dec Dec Dec Dec Dec Dec 
2000 2001 2002 2003 2004 2005 2006 2007 2008 


图 3-11 “grow. nnetR. v12” 系统 的 年 收益 信息 


上 表 清 楚 地 显示 出 系统 在 很 长 一 段 时 间 内 没有 交易 ， 许 多 收益 值 为 0。 
最 后 ， 我 们 演示 性 能 分 析 添 加 包 PerformanceAnalytics 提供 的 风险 分 析 工 具 。 这 里 我 们 用 函数 
table. DownsideRisk( ) 来 获取 交易 策略 的 风险 分 析 信 息 : 


> table.DownsideRisk (rets) 


Equity 
Semi Deviation 0.0017 
Gain Deviation 0.0022 
Loss Deviation 0.0024 


Downside Deviation (MAR=210%) 0.0086 
Downside Deviation (Rf=0%) 0.0034 
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Downside Deviation (0%) 0.0034 
Maximum Drawdown -0.0822 
Historical VaR (95%) -0.0036 
Historical ES (95%) -0.0056 
Modified VaR (95%) -0.0032 
Modified ES (95%) -0.0051 


该 函数 给 出 了 多 个 风险 指标 信息 ， 其 中 有 百分比 最 大 回 撤 和 半 偏 差 。 半 偏差 目前 被 认为 是 
一 个 好 于 常用 的 夏普 比率 的 风险 度量 指标 。 更 多 关于 这 些 统计 指标 的 信息 可 以 参阅 性 能 分 析 添 


:加 包 PerformanceAnalytics 的 帮助 文档 。 


总 的 来 说 ， 前 面 所 做 的 分 析 表 明 ， 交 易 系 统 “ grow. nnetR. v12” 在 9 年 测试 期 间 在 较 大 的 风 
险 下 有 很 小 的 收益 。 尽 管 该 交易 系统 的 效果 明显 好 于 买 和 并 持 有 策略 ， 这 个 系统 还 不 能 用 来 管 
理 投资 。 但 是 ， 我 们 必须 说 ， 这 个 结果 是 预料 之 中 的 。 本 章 的 案例 是 一 个 相当 难 的 问题 ， 因 为 有 
太 多 的 可 能 性 、 太 多 的 变 体 ， 其 中 的 一 些 变 体 已 经 在 本 章 演 示 过 。 本 章 演示 的 是 所 有 可 能 性 中 的 
一 小 部 分 ， 如 果 从 这 一 小 部 分 就 能 得 到 一 个 非常 成 功 的 交易 系统 ， 那 将 是 很 令 人 吃惊 的 ” 。 这 不 
是 本 案例 研究 的 目的 。 这 里 的 目标 是 提供 给 读者 可 行 的 方法 ， 而 不 是 使 用 这 些 方法 来 进行 深度 
的 研究 而 找到 最 好 的 交易 系统 。 
3.7.2 在 线 交易 系统 

假设 我 们 对 得 到 的 这 个 交易 系统 很 满意 。 我 们 如 何在 实际 的 市 场 交易 中 实时 应 用 该 系统 呢 ? 
本 节 将 简略 演示 一 个 具有 这 种 实时 功能 的 系统 。 

这 个 系统 的 机 制 如 下 。 在 每 天 收盘 之 后 ， 将 自动 调用 该 系统 。 该 系统 就 按照 如 下 步骤 操作 : 
1) 获得 每 天 最 新 的 可 利用 数据 ; 2) 进行 它 所 需要 的 建 模 步骤 ; 3) 产生 系统 调用 的 结果 一 一 即 
生成 一 系列 的 指令 。 

假设 我 们 将 要 开发 的 系统 代码 保存 在 文件 “trader. R” 中 。 每 天 收盘 后 调用 这 个 函数 的 方法 
由 操作 系统 决定 。 在 基于 UNIX 的 系统 中 ,通常 有 一 个 名 为 “crontab” 的 表 ， 你 可 以 把 要 求 操作 
系统 规则 性 运行 的 程序 加 入 到 这 个 表 中 。 可 以 在 操作 系统 的 命令 行 输入 下 列 命令 来 编辑 这 个 表 : 

shell> crontab ~e 

这 个 表格 中 条 目的 语法 相当 简单 ， 它 由 一 组 描述 局 期 和 需要 运行 命令 的 字段 构成 。 在 下 面 
的 例子 中 ， 它 指示 系统 在 每 个 工作 日 的 下 午 7 点 运行 程序 “trader R”， 具 体 代码 如 下 : 

0 19 * * 1-5 /usr/bin/R --vanilla --quiet < /home/xpto/trader.R 


开始 两 项 分 别 代表 分 钟 和 小 时 。 第 三 项 和 第 四 项 分 别 代表 所 在 月 份 的 哪 一 天 、 月 份 ， 而 星 号 
(“*”) 意味 着 对 该 域 的 所 有 情况 都 运行 本 程序 。 第 五 项 代表 星期 几 ，1 代表 星期 一 , 用 “ - ” 
来 表明 日 期 区 间 。 最 后 一 项 是 需要 运行 的 程序 。 

程序 “trader. R” 实 现 的 一 般 算法 如 下 : 

一 读 入 当前 交易 系统 的 状态 。 

- 读 入 所 有 可 以 获得 的 最 新 数据 。 

- 检查 是 否 需要 重新 训练 模型 。 

- 获得 今天 的 预测 信号 。 

- 用 该 预测 信号 来 调用 策略 函数 ， 并 获得 交易 指令 。 

- 输出 今天 的 交易 指令 。 

交易 系统 的 当前 状态 是 一 个 数据 结构 ， 它 存储 交易 系统 在 日 常 运行 中 要 求 记 忆 的 信息 。 在 


名 ”如 果 我 们 公开 这 样 一 个 相当 成 功 的 系统 也 是 同样 令 人 吃惊 的 ! 
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我 们 的 案例 中 ， 它 应 该 包括 目前 的 NNET 模型 、 用 来 得 到 该 模型 的 参数 、 用 来 获取 模型 的 训练 数 
据 和 相关 的 模型 规范 、 模 型 的 “年 龄 ”( 它 对 于 何 时 需要 重新 训练 模型 很 重要 )、 到 今天 为 止 系 
统 的 交易 记录 信息 和 现在 的 持仓 头寸 。 理 想 的 情况 下 ， 这 些 信 息 应 该 在 一 个 数据 库 中 ， 然 后 交易 
系统 应 用 R 的 数据 库 界面 来 访问 这 些 信 息 (参见 3.2.4 节 )。 注 意 ， 有 关 持 有 头寸 的 信息 需要 根 
据 交易 系统 外 部 的 信息 来 更 新 ， 因 为 决定 开 仓 和 平 仓 的 时 机 是 市 场 。 而 我 们 的 交易 系统 则 相反 ， 
它 假设 所 有 的 交易 在 下 一 天 的 开始 完成 。 

如 果 我 们 设置 好 数据 模型 ， 那么 获取 新 的 数据 就 很 容易 。 在 3. 3.2 节 中 提 到 ， 可 以 用 函数 
getModelData( ) 获取 最 近 的 报价 ， 从 而 更 新 数据 集 。 

模型 参数 relearn. step 和 模型 记忆 的 所 有 其 他 参数 一 样 ， 它 设置 何 时 需要 重新 训练 模型 。 如 
果 模 型 的 “年 龄 ”大 于 参数 releam. step 的 值 ， 那 么 该 模型 需要 重新 训练 。 如 果 模 型 需要 重新 训 
练 ， 那 么 我 们 应 该 用 当前 窗口 的 数据 调用 函数 MC. nnetR( ) ， 从 而 获得 新 的 模型 。 由 于 我 们 的 最 
佳 交 易 系 统 使 用 的 是 增长 窗口 模式 ， 所 以 训练 集 数 据 不 断 增长 。 如 果 它 变 得 太 大 而 超出 计算 机 
的 内 存 ， 这 可 能 就 成 为 一 个 问题 。 如 果 这 种 情况 发 生 ， 可 以 考虑 丢弃 太 旧 的 训练 集 数据 ， 从 而 修 
剪 训练 集 数据 使 得 它 的 大 小 可 以 被 计算 机 接受 。 

最 后 ， 我 们 必须 得 到 今天 的 交易 信号 预测 。 这 意味 着 需要 用 当前 的 预测 模型 调用 函数 predict( ) 
以 获得 训练 集 最 后 一 行 的 预测 值 ， 即 今天 的 预测 值 。 有 了 这 个 预测 值 ， 就 可 以 调用 具有 适当 参数 
的 交易 策略 ， 从 而 得 到 今天 的 交易 指令 集合 。 这 就 是 最 终 的 程序 结果 。 

上 面 的 大 概 轮 廓 给 你 提供 了 实现 一 个 实时 交易 系统 的 足够 信息 。 


3.8 小 结 


本 章 的 主要 目的 是 向 读者 介绍 一 个 更 加 实用 的 数据 挖掘 案例 。 本 章 描述 的 案例 具有 多 个 挑 
战 性 : 1) 处 理 时 间 序 列 数据 ; 2) 处 理 可 能 具有 模式 变化 的 非常 动态 的 系统 ; 3) 从 预测 模型 转 
到 应 用 领域 的 具体 行动 。 

从 方法 术语 的 角度 ， 本 章 介 绍 了 下 列 新 的 主题 : 

。 时 间 序 列 建 模 。 

e 处 理 带 有 窗口 机 制 的 模式 变化 。 

。 人 工 神经 网 络 。 

e 支持 向 量 机 。 163 

e 多 元 自 适应 回归 样 条 。 

© 用 蒙特 卡 罗 方 法 来 评估 时 间 序 列 模型 。 

© 几 个 预测 稀有 事件 或 者 金融 交易 系统 性 能 的 新 的 评价 指标 。 

从 学 习 R 的 角度 ,我们 演示 了 : 

e 如 何 处 理 时 间 序 列 。 

© 如 何 从 不 同 的 来 源 读 人 数据 ， 例 如 数据 库 。 

e。 如 何 获得 多 种 新 的 模型 (支持 向 量 机 、 神 经 网 络 、 多 元 自 适 应 回归 样 条 ) 。 

。 如何 应 用 多 个 用 于 金融 模型 的 R 添加 包 。 [164] 
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数据 挖掘 的 一 个 常见 问题 是 侦 测 一 个 现象 中 的 特殊 观测 值 ， 第 三 个 案例 就 是 这 种 问题 的 一 
个 实际 案例 。 也 就 是 说 ， 找 到 罕见 的 和 特殊 的 观测 值 。 这 类 应 用 的 动因 是 某 些 公司 的 销售 员 所 报 
告 的 一 系列 产品 的 交易 情况 。 目 的 是 找到 “奇怪 的 ”交易 记录 报告 ， 它 可 能 指出 某 些 销售 员 涉 
嫌 坎 诈 。 数 据 挖掘 的 结果 有 助 于 公司 的 事后 检查 活动 。 由 于 公司 分 配给 事后 检查 工作 的 资源 有 
限 ， 所 以 希望 数据 挖 据 过 程 能 提供 某 种 欺诈 概率 排序 作为 输出 结果 。 这 些 排序 可 以 使 公司 以 最 
佳 方式 来 利用 其 事后 检查 资源 。 这 种 总 资源 有 限 的 检查 活动 在 很 多 领域 有 广泛 应 用 ， 如 信用 卡 
交易 、 税 务 申 报 检验 等 。 本 章 讨论 多 个 新 的 数据 挖掘 主题 : 1) 离 群 值 或 异常 值 检验 ; 2) 聚 类 
分 析 ; 3) 半 监 督 预测 模型 。 


4. 1 问题 描述 与 目标 


考虑 到 在 经 济 和 社会 领域 中 经 常 存在 欺诈 交易 等 非法 活动 ， 因 此 欺诈 检验 是 数据 挖掘 技术 
的 一 个 重要 应 用 领域 。 从 数据 分 析 的 角度 ， 欺 诈 行 为 通常 与 异常 的 观测 值 相 关联 ， 因 为 这 些 欺 诈 
行为 是 偏离 常规 的 。 在 多 个 数据 分 析 领 域 ， 这 些 偏离 常规 的 行为 经 常 称 为 离 群 值 。 事 实 上 ， 离 群 
值 的 标准 定义 是 “一 个 观测 值 与 其 他 观测 值 偏离 太 多 而 引起 猜疑 ， 认 为 它 产生 于 不 同 的 机 制 ” 
(Hawkins, 1980) 。 
本 案例 使 用 的 数据 是 某 公 司 的 销售 员 所 报告 的 交易 数据 。 这 些 销售 员 负责 销售 该 公司 的 产 
品 并 定期 报告 销售 情况 。 我 们 得 到 的 数据 是 一 个 较 短 时 期 内 的 销售 数据 。 销 售 员 可 按照 自己 的 
策略 和 市 场 情 况 来 自由 设置 销售 价格 。 每 月 末 ， 他 们 向 公司 报告 销售 情况 。 数 据 挖 掘 应 用 的 目的 
是 根据 公司 过 去 发 现 的 交易 报告 中 的 错误 和 欺诈 企图 ， 帮 助 公司 完成 核实 这 些 销售 报告 真实 性 
[165] 的 工作 。 我 们 提供 一 份 欺诈 率 排名 的 报告 ， 这 个 欺诈 率 排名 将 允许 公司 把 有 限 的 检验 资源 分 配 
给 系统 所 提示 的 更 “可 疑 ” 的 那些 报告 。 


4.2 可 用 的 数据 


我 们 所 用 的 数据 来 自 一 个 未 公开 的 渠道 并 被 匿名 。 数 据 共 计 401 146 行 ， 每 一 行 包 括 来 自 销 
售 员 报 告 的 信息 。 这 些 信息 包括 销售 员 的 ID 号、 产品 编号 、 销 售 员 所 报告 的 销售 数量 和 总 价值 。 
该 公司 已 经 对 这 些 数据 进行 过 一 些 分 析 ， 分 析 的 结果 显示 在 最 后 一 列 ， 它 们 是 公司 对 交易 进行 
检查 的 结果 。 总 之 ,我 们 应 用 的 数据 集 包 括 以 下 各 列 : 

。 ID: 说 明 销 售 员 ID 的 一 个 因子 变量 。 

。 Prod: 说 明 销 售 产 品 ID 号 的 一 个 因子 变量 。 

© Quant: 报告 该 产品 销售 的 数量 。 

e Val: 报告 销售 记录 的 总 价值 。 

e Insp: 有 3 个 可 能 值 的 因子 变量 一 一 ok 表示 公司 检查 了 该 交易 并 认为 该 交易 有 效 ; fraud 

RM BSL FAKE; unk 表示 该 交易 未 经 过 公司 审查 。 
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4.2.1 加载 数据 至 R 

该 数据 集 可 在 本 书 的 R 添加 包 或 者 本 书 网 站 上 获得 。 在 本 书 网 站 上 ， 本 案例 的 数据 是 一 个 
Rdata 文件 ， 它 是 包含 本 案例 数据 集 的 一 个 数据 框 。 如 果 要 使 用 本 书 网 站 的 数据 ， 需 要 先 下 载 这 
个 文件 到 计算 机 的 本 地 目录 下 ， 然 后 运行 命令 : 


> load("sales.Rdata") 


如 果 当 前 运行 R 的 目录 是 下 载 文件 的 目录 ， 那 么 该 命令 将 从 这 个 文件 中 把 数据 载 人 到 一 个 
名 为 sales 的 数据 框 。 
如 果 使 用 本 书 添加 包 中 的 数据 ， 那 么 应 该 进行 如 下 操作 : 


> library (DMwR) 
> data(sales) 


而 且 ， 得 到 一 个 名 为 sales 的 数据 框 ， 可 以 用 下 面 的 代码 显示 其 前 几 行 数据 ， 如 下 所 示 ， 
> head(sales) 
ID Prod Quant Val Insp 
i vi pi 182 1665 unkn 
2v2 pi 3072 8780 unkn 
3 v3 pi 20393 76990 unkn 
4v4 pi 112 1100 unkn 


5 v3 pi 6164 20260 unkn 
6 v5 p2 104 1155 unkn 


4.2.2 探索 数据 集 
为 了 初步 了 解数 据 的 统计 特征 ， 可 以 使 用 函数 summary() ©, AUBIN: 
> summary (sales) 


ID Prod Quant Val 
v431 : 10159 pii25 : 3923 Min. : 100 Min. : 1005 
v54 : 6017 p3774 : 1824 ist Qu.: 107 ist Qu.: 1345 
v426 : 3902 pi437 : 1720 Median : 168 Median : 2675 
v1679 : 3016 pi917 : 1702 Mean =: 8442 Mean : 14617 
v1085 : 3001 p4089 : 1598 3rd Qu.: 738 3rd Qu.: 8680 
v1183 : 2642 p2742 1519 Max. :473883883 Max. :4642955 
(Other) :372409 (Other): 1388860 NA's : 13842 NA's : 1182 
Insp 

ok : 14462 

unkn :385414 - 

fraud: 1270 


从 结果 可 知 ， 数 据 集中 有 大 量 的 产品 和 销售 人 员 信息 ， 可 以 使 用 函数 nlevels( ) 来 确认 这 一 点 : 


> nlevels(sales$ID) 
[1] 6016 
> nlevels(sales$Prod) 


[1] 4548 
函数 summary() 的 结果 揭示 了 数据 集 的 几 个 事实 。 首 先 ， 在 Quant AA Val 列 有 大 量 的 缺失 





© 可 以 用 R 添加 包 Hmisc 中 的 函数 describe () 来 得 到 类 似 的 有 趣 结果 ， 留 给 读者 自己 练习 。 
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值 。 如 果 在 同一 个 交易 中 这 两 者 缺失 ， 就 会 产生 比较 严重 的 问题 ， 因 为 这 将 导致 一 条 销售 交易 中 
有 关 销 售 量 的 关键 信息 缺失 。 可 以 很 容易 地 检查 是 否 有 这 种 情况 存在 ， 代 码 如 下 : 
> length(which(is.na(sales$Quant) & is.na(sales$Val))) 


[1] 888 


可 以 看 到 ， 具 有 以 上 问题 交易 的 数量 是 合理 的 。 鉴 于 总 的 交易 数量 很 大 ， 人 们 可 以 质疑 是 否 
可 以 简单 地 删除 这 些 同 时 缺失 Val 和 Quant 列 的 报告 。 我 们 将 在 4. 2.3 节 中 考虑 这 个 问题 和 其 他 
的 方法 。 

附带 一 提 ， 特 别 是 对 特大 数据 集 ， 有 更 高 效 的 方式 获取 以 上 信息 。 在 上 面 的 命令 中 ,虽然 看 
起 来 使 用 函数 length( ) 和 函数 which( ) 更 容易 理解 ， 但 可 以 利用 R 中 的 逻辑 值 表 达 式 (T=1, 
F =0) 更 高 效 地 得 到 上 面 的 结果 : 


> sum(is.na(sales$Quant) & is.na(sales$Val)) 


[1] 888 


从 函数 summary() 的 结果 得 到 的 男 一 个 有 趣 的 结论 是 检查 列 的 数据 分 布 。 实 际 上 ， 正 如 预 
期 的 那样 ， 欺 诈 行为 的 比例 相对 较 低 。 即 使 只 考虑 那些 已 经 检查 过 的 销售 记录 ， 欺 诈 行为 的 比例 
总 体 而 言 也 是 较 低 的 : 


> table(sales$Insp)/nrow(sales) * 100 


ok unkn fraud 
3.6051712 96.0782359 0.3165930 


图 4-1 显示 了 每 个 销售 人 员 报告 的 数量 。 可 以 确认 的 是 ， 所 有 销售 人 员 的 数据 相当 不 同 。 图 
4-2 显 示 了 类 似 的 上 述 数据 ， 但 是 是 针对 每 个 产品 的 。 我 们 再 一 次 看 到 了 很 大 的 变动 性 ， 上 述 两 
个 图 形 可 以 用 下 面 代码 得 到 : 

> totS <- table(sales$ID) 

> totP <- table(sales$Prod) 

> barplot (totS, main = "Transactions per salespeople", names.arg = "", 

+ xlab = "Salespeople", ylab = “Amount") 

> barplot(totP, main = "Transactions per product", names.arg = "", 








+ xlab = "Products", ylab = "Amount") 
Transactions per salespeople 
i = 
3 4 
S 4 
8 4 
S E 
Salespeople 


图 4-1 每 个 销售 人 员 的 交易 数量 
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变量 Quant 和 Val 的 描述 性 统计 量 显示 了 相当 明显 的 变动 性 。 这 表明 报告 中 的 产品 可 能 有 很 
大 的 不 同 ， 因 此 对 不 同 产品 分 别 进 行 处 理 是 有 意义 的 。 实 际 上 ， 如 果 两 个 交易 报告 的 产品 是 相同 
的 ， 而 产品 的 标准 价格 差别 太 大 ， 那 么 其 中 的 一 个 交易 报告 只 能 视 为 不 正常 。 不 过 ， 用 这 两 个 数 
量 得 出 这 样 的 结论 可 能 不 是 太 理 想 的 根据 。 实 际 上 ， 由 于 每 个 交易 中 销售 的 产品 数量 不 同 ， 所 以 
用 单位 产品 的 价格 来 进行 上 面 的 分 析 可 能 更 正确 。 可 以 把 这 个 单位 产品 价格 作为 新 的 一 列 加 入 
到 数据 框 中 ， 代 码 如 下 : 

> sales$Uprice <- sales$Val/sales$Quant 


Transactions per product 











Products 


图 4-2 每 个 产品 的 交易 数量 


在 交易 中 ， 同 一 产品 的 单位 交易 价格 应 该 是 相对 稳定 的 。 当 分 析 一 个 较 短 时 期 内 的 交易 时 ， 
产品 的 单位 价格 不 应 该 出 现 巨大 变化 。 
我 们 可 以 用 如 下 代码 来 检查 产品 单位 价格 的 分 布 : 


> sunmary (sales$Uprice) 


Min. ist Qu. Median Mean 3rd Qu. Max. 
2.4480e-06 8.4600e+00 1.1890e+01 2.0300e+01 1.9110e+01 2.6460e+04 
NA's 
1.41366e+04 
我 们 再 次 看 到 明显 的 变动 性 。 


鉴于 这 些 事实 ， 我 们 不 可 避免 地 要 分 别 对 每 个 产品 的 交易 进行 分 析 ， 据 此 找 出 每 个 产品 的 
可 疑 交易 。 应 用 这 种 方法 的 一 个 问题 是 部 分 产品 只 有 非常 少 的 交易 。 实 际 上 ， 在 4548 种 产品 中 ， 
有 982 种 产品 的 交易 量 小 于 20。 基 于 这 种 小 于 20 的 样本 得 出 一 个 报告 为 不 寻常 报告 有 较 大 的 
风险 。 

检查 最 贵 的 和 最 便宜 的 产品 可 能 是 很 有 趣 的。 我 们 用 单位 价格 的 中 位 数 来 代表 已 售 产品 的 
标准 价格 。 下 面 代码 用 于 获取 我 们 所 需要 的 信息 : 


> attach(sales) 170 
> upp <- aggregate(Uprice, list (Prod) ,median,na.rm=T) 
> Oe <- sapply(c(T,F) ,function(o) 
upp [order (upp[, 2] ,decreasing=o) [1:5] ,1]) 
> er <- c('Expensive' ,'Cheap') 
> topP 
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Expensive Cheap 

[1,] "p3689" "p560" 

[2,] "p2453" "p559" 

[3,] "p2452" "p4195" 

[4,] "p2456" "p601" 

[5,] "p2459" "p563" 

我 们 把 数据 框 添 加 到 R 中 ， 这 样 便于 直接 应 用 数据 框 的 列 名 。 我 们 使 用 aggregate( ) 函数 得 
到 每 个 产品 的 单位 价格 的 中 位 数 。 函 数 aggreagte( ) 把 某 个 产生 数值 的 函数 (聚合 函数 ) 应 用 在 
按照 某 些 因子 (或 因子 列表 ) 形成 的 数据 子 组 上 。 其 结果 是 一 个 数据 框 ， 数 据 框 的 值 为 每 个 组 
的 聚合 函数 值 。 从 上 面 获 得 的 数据 框 ， 我 们 通过 应 用 函数 sapply( ) 并 更 改 函数 order( ) 的 参数 
decreasing 的 值 ， 得 到 5 个 最 昂贵 (最 便宜 ) 的 产品 。 

我 们 可 以 用 这 5 个 产品 的 单位 价格 的 箱 图 来 确认 它们 完全 不 同 的 价格 分 布 : 


> tops <- sales[Prod %in% topP[1, ], c("Prod", "Uprice")] 

> tops$Prod <- factor(tops$Prod) 

> boxplot (Uprice ~ Prod, data = tops, ylab = "Uprice", log = "y") 

运算 符 “%in%” 用 于 测试 一 个 值 是 否 属 于 一 个 集合 。 上 面 代码 调用 函数 factor( ) 十 分 必 
要 ， 否 则 数据 框 tops 的 Prod 列 的 水 平 数 将 和 原始 的 sales 数据 框 的 Prod 列 的 水 平 数 相同 。 这 将 时 
致 boxplot( ) 函数 为 每 个 水 平 值 绘制 一 个 箱 图 。 最 昂贵 价格 和 最 便宜 价格 的 数据 量 纲 是 相当 不 同 
的 。 为 了 避免 最 便宜 产品 的 数据 变 得 无 关 紧要 ， 我 们 在 图 形 中 取 了 对 数 。 这 通过 设置 参数 log =y 
来 实现 ， 它 表明 了 轴 是 原始 数据 的 对 数 (注意 ， 数 轴 上 的 同一 距离 所 对 应 的 单位 价格 的 不 同 范 
围 ) 。 上 述 代码 的 结果 如 图 4-3 所 示 。 


1a+04 


10+00 


10-02 





p560 p3889 


图 4-3 最 便宜 和 最 昂贵 产品 的 单位 价格 分 布 


可 以 进行 类 似 的 分 析 ， 以 找 出 那些 给 公司 带 来 更 多 (D) 资金 的 销售 人 员 : 


> vs <- aggregate(Val,1ist (ID), sum,na.rm=T) 

> > scoresSs <- sapply(c(T,F),function(o) 
vs[order(vs$x,decreasing=o)[1:5],1]) 

> > colnanes(scoressa) <- c('Most','Least') 

> scoresSs 


Most Least 
[1,] "v431" "v3355" 
[2,] "v54" "v6069" 
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[3,] "v19" "v5876" 
[4,] "v4520" "v6058" 
[5,] "v955" "v4515" 


有 趣 的 是 ， 上 面 列表 中 给 公司 带 来 更 多 资金 的 前 100 名 销售 人 员 的 资金 收入 几乎 占 公 司 资金 
收入 的 40% ， 而 在 6016 名 销售 人 员 中 ， 底 部 2000 人 的 总 收入 不 足 公 司 总 收入 的 2% 。 这 可 能 给 
出 某 些 提示 ， 说 明 该 公司 需要 进行 内 部 改革 。 

`> sum(vs[order(vs$x, decreasing = T) [1:;100], 2])/sum(Val, na.rm = T) * 

+ 100 

[1] 38.33277 


> sum(vs[order(vs$x, decreasing = F)[1:2000], 2])/sum(Val, 

+ na.rm = T) * 100 

[1] 1.988716 

如 果 我 们 对 每 个 产品 所 销售 的 数量 进行 类 似 的 分 析 ， 结 果 更 加 不 平衡 : 


> qs <- aggregate (Quant, list (Prod) ,sum,na.rm=T) 
> scoresPs <- sapply(c(T,F),function(o) 


+ qs [order (qs$x,decreasing=o) [1:5], 1]) 
> colnames(scoresPs) <- c('Most','Least') 
> scoresPs 


Most Least 

{1,] "p2516" "p2442" 

[2,] "p3599" "p2443" 

[3,] "p314". "p1653" 

[4,] "p569" "p4101" 

[5,] "p319" "p3678" 

> sum(as. double (qs [order (qs$x, decreasing=T) [1:100],2]))/ 
+ sum(as.double (Quant) ,na.rm=T)*100 


[1] 74.63478 


> sum(as.double(qs [order (qs$x, decreasing=F) [1:4000] ,2]))/ 
+  sum(as.double (Quant) ,na.rm=T)+*100 


[1] 8.94468 


你 可 能 已 经 注意 到 上 面 的 代码 使 用 了 as. double() 函数 。 这 种 情况 下 ，sum( ) 函数 产生 的 
数目 太 大 ， 必 须 用 double 类 型 来 存储 。 因 此 ， 应 用 函数 as. double() 能 确保 这 种 类 型 转换 。 

在 4548 个 产品 中 ， 其 中 4000 个 产品 代表 了 少 于 10% 的 销量 ， 而 销量 最 高 的 100 个 产品 占 了 
近 75% 的 销量 。 这 个 信息 对 产品 的 生产 十 分 有 用 。 特 别 地 ， 它 并 不 意味 着 公司 应 该 停止 生产 销 
售 量 较 少 的 产品 。 事 实 上 ， 如 果 这 些 产 品 有 更 高 的 边际 利润 ， 就 会 更 有 利 可 图 。 由 于 我 们 没有 关 
于 产品 制造 成 本 的 任何 信息 ， 所 以 无 法 得 出 是 否 继续 生产 销量 小 的 产品 的 任何 结论 。 

我 们 为 了 发 现 异常 交易 报告 ， 做 出 的 主要 假设 之 一 是 ， 所 有 产品 的 单位 价格 都 遵循 一 个 接 
近 正 态 的 分 布 。 这 意味 着 ,我 们 预期 的 同一 产品 的 单位 价格 大 臻 相同， 它们 之 间 小 的 变化 可 能 是 
由 于 销售 人 员 为 了 达到 他 们 的 商业 目标 而 采取 的 策略 。 在 这 种 假设 下 ， 有 一 些 基 本 的 统计 检验 
技术 来 帮助 我 们 发 现价 格 是 否 偏离 正 态 假设 。 其 中 一 个 方法 是 基于 箱 图 规则 。 在 本 书 中 ， 我 们 已 
经 多 次 看 到 用 箱 图 来 侦 测 离 群 值 。 箱 图 规则 的 定义 是 ， 如果 一 个 观测 值 高 于 上 须 (REEFF 
须 ) ， 则 将 观测 值 标记 为 异常 高 ( 低 )。 上 人 须 的 定义 是 0; + 1.5 xIQR (下 须 的 定义 为 Q, -1.5 x 
IQR), HPO, 是 第 一 个 四 分 位 数 ，Q, 是 第 三 个 四 分 位 数 ，IQR 是 四 分 位 距 ， 其 定义 为 IQR = 
(Q: -01)。 这 个 简单 的 规则 对 正 态 分 布 的 变量 很 有 效 。 由 于 它 是 基于 四 分 位 数 这 一 稳健 的 统计 
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量 ， 所 以 在 有 少数 离 群 值 时 该 规则 是 稳健 的 。 下 面 的 代码 可 以 【根据 上 述 定义 ) 确定 每 个 产品 


的 异常 值 个 数 : 
> out <- tapply(Uprice,1ist (Prod=Prod), 
+ function(x) length(boxplot.stats(x)$out)) 


函数 boxplot. stats( ) 可 以 获得 某 些 用 于 绘制 箱 图 的 统计 量 。 它 返回 含有 这 些 信息 的 一 个 列 
表 。 列 表 的 out 元 素 包含 了 根据 箱 图 规则 被 视 为 离 群 值 的 观测 值 。 上 面 的 代码 计算 了 每 个 产品 交 

171| 易 中 含 有 的 离 群 值 数量 。 含 有 较 多 离 群 值 的 产品 如 下 所 示 : 
> out [order(out, decreasing = T)[1:10]] 

Prod 

p1125 p1437 p2273 p1917 p1918 p4089 p538 p3774 p2742 p3338 

376 181 165 156 156 137 129 125 120 117 

应 用 这 个 简单 方法 ， 找 到 29 446 个 被 认为 是 离 群 值 的 交易 ， 这 相当 于 总 交易 数量 的 7% 。 


> sum(out) 
[1] 29446 
> sum(out)/nrow(sales) * 100 


[1] 7.34047 


也 许 读 者 会 怀疑 这 个 简单 的 确定 离 群 值 的 规则 是 否 能 充分 提供 这 个 案例 中 所 需要 的 帮助 。 
4.4.1.1 节 将 对 这 个 规则 稍 加 修改 以 适应 我 们 的 应 用 ， 并 评估 其 性 能 。 

需要 注意 本 节 中 得 出 的 某 些 结论 。 我 们 使 用 的 数据 独立 于 下 面 的 事实 : 有 些 报告 发 现 有 欺 
诈 ， 而 其 他 的 报告 可 能 也 有 其 许 ， 只 是 没有 探测 到 。 这 意味 着 有 些 错误 数据 可 能 导致 我 们 的 某 些 
结论 是 有 偏差 的 。 这 里 的 问题 是 ， 对 那些 标记 为 有 欺诈 的 报告 ,我 们 不 知道 真 的 是 否 有 欺诈 。 理 
论 上 ,我 们 肯定 正确 的 交易 是 那些 在 列 Insp 取 值 为 OK 的 报告 ， 然 而 这 些 报告 只 占 总 交易 量 的 
3.6%, RU, 尽管 分 析 是 正确 的 ， 但 结果 可 能 受 低 质 量 的 数据 影响 。 这 在 现实 问题 中 应 该 考虑 
到 ， 不 要 基于 包含 错误 的 数据 来 给 公司 提供 建议 。 然 而 完整 检查 数据 是 不 可 能 的 ， 因 此 这 种 风险 
总 是 会 存在 的 。 至 多 我 们 在 探索 性 分 析 数 据 时 避免 使 用 已 经 发 现 包含 错误 的 较 少 的 交易 数据 。 
另 一 个 可 以 做 的 事情 就 是 把 结果 呈现 给 公司 ， 如 果 他 们 认为 某 些 分 析 结 果 是 非 期 望 的 ， 可 以 对 
这 些 导 致 惊奇 结果 的 数据 进行 更 细致 的 分 析 。 这 意味 着 这 种 分 析 通 常 需要 与 领域 专家 以 某 种 形 
式 进行 沟通 ， 特 别 是 像 本 案例 中 这 样 怀疑 数据 的 质量 时 。 此 外 ， 这 种 类 型 的 探索 性 分 析 对 低 质 量 
的 数据 尤其 重要 ， 因 为 许多 问题 可 以 容易 地 在 这 个 阶段 发 现 。 

074] 4.2.3 ”数据 问题 

数据 质量 问题 可 能 会 给 应 用 本 章 后 面 技术 带 来 一 些 障 碍 ， 本 节 将 介绍 一 些 数 据 质量 问题 。 

4.2.3..1 缺失 值 

我 们 从 处 理 缺 失 值 这 一 问题 开始 。 在 2. 5 节 中 提 到 ， 基 本 上 有 3 个 选择 : 1) 剔除 这 些 个 案 ; 
2) 用 某 些 策略 来 填补 缺失 数据 ; 3) 运用 可 以 处 理 缺 失 值 的 工具 。 考 虑 到 本 章 将 要 用 到 的 工具 ， 
只 有 前 两 个 选择 对 我 们 是 有 效 的 。 

前 面 提 到 过 ， 主 要 的 问题 是 变量 Quant 和 变量 Va 都 有 数据 缺失 的 交易 。 如 果 移 除 所 有 的 
888 个 个 案 将 导致 昌 除 某 些 产品 或 销售 人 员 的 大 部 分 交易 ， 这 时 候 全 部 剔除 888 个 个 案 是 有 问题 
的 。 下 面 ， 我 们 检查 这 种 情况 是 否 会 发 生 。 

每 个 销售 人 员 和 产品 的 交易 数量 由 下 面 的 代码 给 出 : 


> totS <- table(ID) 
> totP <- table(Prod) 
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可 以 用 下 面 的 代码 显示 与 存在 问题 的 交易 相关 的 销售 人 员 和 产品 : 


> nas <- sales[which(is.na(Quant) & is.na(Val)), c("ID", "Prod")] 


下 面 给 出 变量 Quat 和 变量 Val 同时 有 缺失 值 的 交易 占 很 大 比例 的 销售 人 员 : 
> propS <- 100 * table(nas$ID)/tots 
> propS[order(propS, decreasing = T)[1:10]] 


v1237 v4254 v4038 v5248 v3666 v4433 v4170 
13.793103 9.523810 8.333333 8.333333 6.666667 6.250000 5.555556 
v4926 v4664 v4642 
5.555556 5.494505 4.761905 


至 少 从 销售 人 员 方 面 来 看 ， 直 接 剔除 这 些 同 时 在 两 个 变量 有 缺失 值 的 交易 是 合理 的 ， 因 为 
它们 只 代表 了 很 小 的 一 部 分 交易 。 另 外 ， 试 图 同时 填补 那 两 列 似乎 更 为 冒险 。 

从 产品 方面 来 看 ， 应 用 下 面 的 代码 得 到 同时 在 两 个 变量 都 有 缺失 值 的 交易 占 较 大 的 比例 的 产品 : 

> propP <- 100 * table(nas$Prod)/totP 

> propP[order(propP, decreasing = T)[1:10]] 


p2689 p2675 p4061 p2780 p4351 p2686 p2707 p2690 
39.28571 35.41667 25.00000 22.72727 18.18182 16.66667 14.28571 14.08451 
p2691 p2670 
12.90323 12.76596 


多 个 产品 将 被 删除 的 交易 超过 20% ; 特别 是 产品 p2689 将 有 近 40% 的 交易 被 删除 。 这 看 起 
来 太 多 了 。 另 一 方面 ， 如 果 我 们 决定 填补 那些 缺失 值 ， 那 么 唯一 合理 的 策略 是 使 用 相同 产品 的 具 
有 “完全 ”信息 的 交易 。 这 意味 着 运用 该 产品 剩余 60% 的 交易 信息 去 填补 该 产品 40% 的 交易 信 
息 。 这 看 起 来 也 是 不 合理 的 。 幸 运 的 是 ， 如 果 我 们 看 看 产品 的 单位 价格 分 布 之 间 的 相似 性 ( 详 
见 4.2.3.2 节 )， 那么 我 们 实际 上 可 以 观察 到 这 些 产品 和 其 他 产品 相当 类 似 。 这 种 情况 下 ， 我 们 
可 以 得 到 如 下 结论 ， 如 果 噜 除 有 缺失 数据 的 交易 后 只 有 少量 的 交易 ， 那 么 我 们 就 可 以 和 类 似 产 
品 的 交易 相 结合 以 增加 离 群 值 检测 的 统计 可 靠 性 。 总 之 ， 剔 除 所 有 同时 在 数量 和 价格 上 有 缺失 
值 的 交易 是 最 好 的 选择 : 

> detach (sales) 

> sales <- sales[{-which(is.na(sales$Quant) & is.na(sales$Val)),J 

我 们 用 detach( ) 函数 来 禁止 直接 访问 数据 框 的 列 。 原 因 是 基于 attach( ) 函数 的 工作 方式 。 
当 调 用 函数 attach (sales) 时 ，R 复制 sales 数据 框 的 每 一 列 ， 为 每 一 列 建立 一 个 新 对 象 。 如 果 从 
sales 数据 框 删 除数 据 ， 那 么 这 些 变 化 不 会 反映 在 这 些 新 对 象 中 。 总 的 来 说 ， 当 要 查询 的 数据 容 
易 发 生 改 变 时 ， 不 应 该 使 用 attach( ) 函数 提供 的 便利 ; 否则 ， 我 们 可 能 会 得 到 不 一 致 的 数据 视 
图 : 原始 数据 框 的 数据 视图 和 函数 attach( ) 所 创建 对 象 的 视图 。 后 者 是 在 一 定时 间 内 的 原始 数 
据 框 的 “快照 ， 如 果 在 调用 函数 attach( ) 后 我 们 修改 了 数据 框 ， 那 么 这 个 “快照 ”就 过 时 了 。 

现在 让 我 们 分 析 剩 余 的 在 数量 或 者 价格 变量 上 有 缺失 值 的 交易 。 我 们 从 计算 每 一 种 产品 在 
数量 上 有 缺失 值 的 交易 比 开始 : 


> nnasĝp <- tapply(sales$Quant, list (sales$Prod), 
+ function(x) sum(is.na(x))) 

> propNAsQp <- nnasQp/tabie(sales$Prod) 

> propNAsQp [order (propNAsQp, decreasing=T) [1:10]] 


p2442 p2443 p1653 p4101 p4243 p903 p3678 
1.0000000 1.0000000 0.9090909 0.8571429 0.6842105 0.6666667 0.6666667 
p3955 p4464 p1261 
0.6428571 0.6363636 0.6333333 
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p2442 和 p2443 两 个 产品 所 有 的 交易 数量 是 缺失 的 。 因 为 我 们 无 法 计算 其 标准 单价 ， 所 以 没 
有 进一步 的 信息 ， 用 这 些 产品 的 交易 信息 不 可 能 进行 任何 分 析 。 它 们 一 共有 54 份 报告 ， 其 中 两 
份 标记 为 欺诈 ， 而 其 他 的 标记 为 “OK”。 这 意味 着 ， 或 者 检查 员 人 掌握 了 比 这 个 数据 集 更 多 的 信 
息 ， 或 者 我 们 得 到 的 数据 有 输入 错误 ， 因 为 从 这 些 交 易 中 似 乎 不 可 能 得 到 任何 结论 。 基 于 此 ,我 
们 将 删除 这 些 交易 报告 : f 
> sales <- sales[!sales$Prod Xin% c("p2442", "p2443"), J 


由 于 我 们 从 数据 集中 删除 了 两 种 产品 ， 所 以 我 们 应 该 更 新 列 Prod 的 水 平 : 


> nlevels(sales$Prod) 
[1] 4548 


> sales$Prod <- factor(sales$Prod) 
> nlevels(sales$Prod) - 


[1] 4546 
是 否 有 销售 人 员 的 所 有 交易 数量 为 缺失 值 ? 


> nnasQs <- tapply(sales$Quant, list(sales$ID), function(x) sum(is.na(x))) 
> propNAsQs <- nnasQs/table(sales$ID) 
> propNAsQs [order (propNAsQs, decreasing = T)[1:10]] 


v2925 v5537 v5836 v6058 v6065 v4368 v2923 
1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 0.8888889 0.8750000 
v2970 v4910 v4542 
0.8571429 0.8333333 0.8095238 


从 上 面 结果 可 以 看 到 ， 有 几 个 销售 人 员 没 有 在 报告 中 填写 交易 的 数量 信息 。 然 而 ， 这 种 情况 
下 ， 间 题 没有 那么 严重 。 实 际 上 ， 应 用 单位 价格 应 该 类 似 的 假设 ， 只 要 我 们 有 其 他 销售 人 员 报 告 
的 相同 产品 的 交易 ， 我 们 就 可 以 尝试 使 用 此 信息 来 填补 那些 缺失 值 。 正 因为 如 此 ， 我 们 将 不 会 删 
除 这 些 交 易 。 

现在 我 们 将 对 交易 的 Val 列 的 缺失 值 进 行 类 似 的 分 析 。 首 先 ， 每 种 产品 在 该 列 有 人 缺失 值 的 交 
易 所 占 的 比例 为 : 


177 > > nnasVp <- tapply (sales$Val, list (sales$Prod), 
function(x) sum(is.na(x))) 
> > proplAsvp <- nnasVp/table(sales$Prod) 
> propNAsVp [order (propNAsVp, decreasing=T) [1:10]] 


p1110 p1022 p4491 p1462 p80 p4307 
0.25000000 0.17647059 0.10000000 0.07500000 0.06250000 0.05882353 
p4471 p2821 p1017 p4287 


0.05882353 0.05389222 0.05263158 0.05263158 


这 些 数 字 是 合理 的 ， 因 此 删除 这 些 交 易 是 没有 意义 的 。 我 们 将 用 其 他 的 交易 来 填补 这 些 缺 
失 值 。 从 销售 人 员 方 面 ， 计 算 这 些 数字 的 方法 如 下 : 


> nnasVs <- tapply(sales$Val, list(sales$ID), function(x) sum(is.na(x))) 
> propNAsVs <- nnasVs/table(sales$ID) 
> propNAsVs [order (propNAsVs, decreasing = T)[1:10]] 


v5647 v74 v5946 v5290 v4472 v4022 
0.37500000 0.22222222 0.20000000 0.15384615 0.12500000 0.09756098 
v975 v2814 v2892 v3739 


0.09574468 0.09090909 0.09090909 0.08333333 
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同样 ， 这 个 比例 不 是 太 高 。 

在 这 个 阶段 中 ， 我 们 已 经 删除 了 所 有 没有 足够 信息 来 填补 缺失 值 的 报告 。 对 剩余 的 缺失 值 ， 
基于 同一 个 产品 的 交易 单位 价格 相似 的 假设 ， 我 们 将 应 用 某 个 方法 进行 缺失 值 填补 。 我 们 将 首 
先 获得 每 一 个 产品 的 标准 单价 。 计 算 标准 价格 时 ， 我 们 将 跳 过 标记 为 欺诈 的 交易 价格 。 对 剩余 的 
交易 ， 我 们 将 使 用 每 个 产品 单位 价格 的 中 位 数 作为 相应 产品 的 标准 价格 : 

> tPrice <- tapply(sales[sales$Insp != "fraud", "Uprice"], 

+ + list(sales[sales$Insp != "fraud", "Prod"]), median, na.rm = T) 

因为 我 们 目前 没有 交易 同时 在 这 两 个 变量 上 有 缺失 值 ， 所 以 每 一 个 产品 有 了 一 个 标准 单价 
后 ， 我 们 就 可 以 用 它 来 计算 两 个 可 能 的 缺失 值 (Quant 和 Val)。 下 面 的 代码 将 填补 所 有 剩余 的 缺 
RA: 

> noQuant <- which(is.na(sales$Quant)) 

> > sales [noĝuant,'Quant'] <- ceiling(sales(noQuant,'Val'] / 

tPrice [sales [noQuant ,'Prod']]) 
> > noval <- which(is.na(sales$Val)) 

> > sales [nova], 'Val'] <- sales[noVal,'Quant'] * 

tPrice [sales [noVal ,'Prod']] 

我 们 填补 了 12 900 个 未 知 的 数量 值 ， 并 填补 了 294 个 交易 总 价值 。 如 果 你 像 我 一 样 ， 我 相 
信 你 也 会 欣赏 上 面 这 些 完成 所 有 操作 的 精简 代码 。 它 用 的 都 是 索引 方法 ! 我 们 使 用 ceiling() M 
数 来 避免 Quant 的 非 整 数值 。 这 个 函数 返回 不 小 于 参数 中 数值 的 最 小 整数 。 

鉴于 我 们 现在 有 了 Quant 和 Val 的 所 有 值 ， 我 们 就 可 以 重新 计算 Uprice 列 的 值 来 填充 先前 未 
知 的 单位 价格 : 


> sales$Uprice <- sales$Val/sales$Quant 178 


经 过 所 有 这 些 预 处理 步 又 后 ， 有 一 个 没有 任何 缺失 值 的 数据 集 。 为 了 进一步 的 分 析 ， 保 存 当 
前 的 sales 数据 框 ， 这 样 可 以 从 这 个 数据 框 来 进行 下 面 的 分 析 ， 而 不 必 再 重复 前 面 的 所 有 步骤 。 
可 以 如 下 保存 数据 集 : 


> save(sales, file = “salesClean.Rdata") 


函数 save() 可 以 把 任何 对 象 保存 在 参数 file 指定 的 文件 中 。 在 4.2.1 节 中 提 到 过 ， 这 些 文 
件 保 存 的 对 象 可 以 通过 load( ) 函数 载 人 到 R 中 。 

4.2.3.2 只 有 少量 交易 的 产品 

有 些 产品 只 4 有 极 少 的 交易 。 因为 需要 用 这 些 交 易 的 信息 来 确定 交易 中 是 否 有 异常 ， 所 以 这 
是 一 个 问题 。 如 果 有 太 少 的 交易 ， 在 要 求 的 统计 显著 性 下 很 难 做 出 决定 。 这 种 情况 下 ， 考 虑 是 否 
可 以 和 一 些 产品 的 交易 一 起 分 析 来 避免 这 个 问题 。 

尽管 完全 缺乏 产品 之 间 关 系 的 信息 ， 但 可 以 尝试 通过 观察 产品 单价 分 布 之 间 的 相似 性 来 
推断 其 中 的 一 些 关系 。 如 果 我 们 发 现 具 有 类 似 价 格 的 产品 ， 那 么 我 们 可 以 考虑 合并 它们 相应 
的 交易 并 对 它们 一 起 进行 分 析 ， 从 而 寻找 异常 值 。 比 较 两 个 分 布 的 一 种 方法 是 可 视 化 检查 法 。 
鉴于 产品 的 数量 ， 这 是 不 可 行 的 。 另 一 种 方法 是 比较 总 结 分 布 的 一 些 统计 特性 。 连 续 变量 分 布 的 
两 个 重要 属性 是 集中 趋势 和 离散 指标 。 如 前 所 述 ， 假 设 任何 产品 的 单位 价格 分 布 大 约 为 正 态 是 
合理 的 。 这 意味 着 虽然 价格 存在 变化 性 ， 但 它们 应 该 很 好 地 分 布 在 常见 价格 的 周围 。 但 是 ， 这 里 
也 假设 有 离 群 值 的 出 现 ， 它 们 可 能 是 由 于 欺诈 企图 或 错误 造成 的 。 这 里 使 用 中 位 数 作为 衡量 中 
心 的 统计 量 ， 应 用 四 分 位 距 (IQR) 作为 离散 指标 的 统计 量 更 有 意义 。 与 更 常用 的 均值 和 标准 差 
相 比 ， 这 些 统计 量 在 有 离 群 值 存在 时 更 加 稳健 。 计 算 每 种 产品 所 有 交易 的 这 两 个 统计 量 的 代码 
如 下 : 
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> attach(sales) 
> notF <- which(Insp != 'fraud') 
> ms <- tapply(Uprice [notF] , list (Prod=Prod[notF]),function(x) { 


+ bp <- boxplot.stats(x)$stats 
+ c(median=bp [3] , iqr=bp[4]-bp [2] ) 
+ H 
> ms <- matrix(unlist(ms), 
+ length (ms), 2, 
+ byrow=T, dimnames=list (names (ms) ,c('median','igqr'))) 
> head(ms) 
median iqr 


p1 11.346154 8.575599 
p2 10.877863 5.609731 


p3 10.000000 4.809092 

p4 9.911243 5.998530 

p5 10.957447 7.136601 

p6 13.223684 6.685185 

上 面 代码 使 用 函数 boxplot. stats( ) 获得 中 位 数 、 第 一 个 四 分 位 数 和 第 三 个 四 分 位 数 。 对 每 个 
产品 的 所 有 交易 ， 计 算 这 些 统计 量 ， 从 分 析 中 剔除 有 欺诈 的 交易 。 有 了 这 些 统计 量 后 ， 得 到 含有 
每 个 产品 的 中 位 数 和 四 分 位 距 的 一 个 矩阵 。 ` 

图 4-4a 是 根据 每 个 产品 的 中 位 数 和 IQR ( 四 分 位 距 ) 绘制 的 图 形 。 因 为 有 几 个 产品 在 这 些 
统计 量 上 有 很 大 的 值 ， 所 以 图 4-4 很 难 阅读 。 特 别 是 ， 产 品 p3689 〈 在 右上 角 的 点 ) 明显 地 与 该 
公司 的 其 他 产品 不 同 。 通 过 使 用 对 数 尺度 来 克服 这 个 可 视 化 的 问题 (图 4-4b)。 在 图 4-4b 中 ， 
使 用 黑色 的 “ +” 标志， 表明 该 产品 的 交易 数 少 于 20。 绘 制图 4-4 的 代码 如 下 ， 其 中 参数 log = 
xy 用 来 设置 图 形 的 两 个 数 轴 的 标 度 为 对 数 标 度 : 


> par(mfrow = c(1, 2)) 

> plot (ms[, 1], ms[, 2], xlab = "Median", ylab = "IQR", main 
> plot(ms[, 1], ms[, 2], xlab = "Median", ylab = "IQR", main 
+ col = "grey", log = "xy") 

> smalls <- which(table(Prod) < 20) 

> points(log(ms[smalls, 1]), log(ms[smalls, 2]), pch = "+") 
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图 4-4 单位 价格 分 布 的 某 些 特征 


在 图 4-4b 中 ， 第 一 个 注意 到 的 是 ,许多 产品 的 中 位 数 和 IQR 大 致 相同 ， 即 使 是 对 数 标 度 。 
这 提供 了 单价 分 布 相似 性 的 一 个 很 好 证 据 。 此 外 ,我 们 可 以 看 到 ， 那 些 有 少数 交易 的 产品 中 有 很 
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多 和 其 他 产品 非常 类 似 。 然 而 ， 也 有 几 种 产品 ， 它 们 不 仅 有 很 少 的 交易 ， 它 们 的 单位 价格 分 布 也 
相当 不 同 。 显 然 我 们 很 难 判断 这 些 产品 是 否 为 欺诈 交易 。 

尽管 可 视 化 检查 单位 价格 的 分 布 特征 有 以 上 的 优点 ， 但 是 当 比 较 两 种 产品 的 分 布 时 ， 还 需 
要 有 正式 的 检验 以 获取 更 高 的 精确 度 。 因 为 非 参 数 检验 对 有 离 群 值 的 数据 更 稳健 ， 我 们 将 使 用 
这 类 检验 来 比较 单位 价格 的 分 布 。Kolmogorov-Smirnov 检验 可 以 用 来 比较 任何 两 个 样本 ， 以 检查 
两 者 都 来 自 相同 分 布 的 原 假设 的 有 效 性 。 这 个 检验 通过 计算 两 者 累计 经 验 分 布 函数 差 值 的 最 大 
值 这 个 统计 量 来 进行 。 如 果 两 个 分 布 类 似 ， 那 么 这 个 最 大 距离 应 该 很 小 。 

对 于 交易 数量 少 于 20 的 产品 ,我 们 将 寻找 与 它 的 单位 价格 分 布 最 相似 的 产品 ， 然 后 用 
Kolmogorov-Smirnov 检验 来 检查 两 个 产品 是 否 在 统计 意义 上 相似 。 对 所 有 的 产品 组 合 进 行 这 个 检 
查 ， 计 算 将 会 变 得 过 于 复杂 。 我 们 决定 采用 前 面 计 算 过 的 分 布 特征 〈 中 位 数 和 IQR) 。 也 就 是 说 ， 
对 于 每 一 个 交易 数量 较 少 的 产品 ， 我 们 寻找 与 该 产品 有 相似 中 位 数 和 IQR 的 产品 。 对 于 这 种 类 
似 的 产品 ， 都 进行 了 各 自 的 单价 分 布 之 间 的 Kolmogorov-Smirnov 检验 。 下 面 的 代码 用 来 获取 一 个 
和 矩阵 〈similar) ,矩阵 中 存储 的 是 这 种 少 于 20 个 交易 的 每 个 产品 的 检验 信息 。 它 用 对 象 ms 来 保 
存 前 面 获 得 的 每 个 产品 的 单位 价格 的 中 位 数 和 TOR, 


> dms <- scale(ms) 
> smalls <- which(table(Prod) < 20) 
> prods <- tapply(sales$Uprice, sales$Prod, list) 
> similar <- matrix(NA, length(smalls), 7, dimnames = list (names(smalls), 
+ c("Simil", "ks.stat", "ks.p", "medP", "igqrP", "medS", 
"igqrS"))) 
for (i in seq(along = smalis)) { 
d <- scale(dms, dms[smalls[i], ], FALSE) 
d <- sqrt(drop(d°2 %*% rep(1, ncol(d)))) 
stat <- ks.test (prods[[smalls[iJ]], prods[ {order (d) [2]]]) 
similar[i, ] <- c(order(d)[2], stat$statistic, stat$p.value, 
ms[smalls[iJ, ], ms[order(d) [2], 1) 


++ ee vt 


+ 


+ } 

上 面 代码 首先 对 对 象 ms 的 数据 进行 标准 化 ， 避 免 计算 距离 时 负 值 的 影响 。 在 初始 化 后 ， 主 
循环 对 每 一 个 有 少数 交易 的 所 有 产品 进行 循环 ,循环 的 前 两 个 命令 计算 所 分 析 产 品 的 分 布 特性 
和 所 有 其 他 产品 之 间 的 距离 (i 的 当前 值 ) 。 产 生 的 结果 对 象 (d) 含有 这 些 距离 值 。 第 二 个 最 小 
距离 对 应 的 产品 是 与 正在 考虑 的 产品 最 类 似 的 产品 。 这 里 是 第 二 最 小 距离 ， 因 为 第 一 最 小 距离 
是 产品 本 身 。 我 们 再 次 注意 到 ， 使 用 产品 单位 价格 的 中 位 数 和 IQR 信息 来 计算 产品 之 间 的 相 
似 性 。 下 一 步 是 进行 Kolmogorov-Smimov 检验 ,来 比较 两 个 单位 价格 的 分 布 。 这 里 调用 函数 
ks. test( ) 。 这 个 函数 返回 显著 性 信息 ， 其 中 “提取 ”了 检验 的 统计 量 值 和 各 自 的 显著 性 水 平 。 
- 统计 量 取 值 是 两 个 累积 经 验 分 布 函数 差 值 的 最 大 值 。 接 近 1 的 置信 和 度 水 平 值 表示 有 很 强 的 统计 证 
据 表 明 两 个 分 布 相等 这 一 原 假设 是 正确 的 。 下 面 我 们 给 出 结果 矩阵 similar 对 象 的 前 几 行 ， 

> head(similar) 


Simil ks.stat ks .P medP igrP medS iqrS 
p8 2827 0.4339623 0.06470603 3.850211 0.7282168 3.868306 0.7938557 
pls 213 0.2568922 0.25815859 5.187266 8.0359968 5.274884 7.8894149 
p38 1044 0.3650794 0.11308315 5.490758 6.4162095 5.651818 6.3248073 
p39 1540 0.2258065 0.70914769 7.986486 1.6425959 8.080694 1.7668724 
p40 3971 0.3333333 0.13892028 9.674797 1.6104511 9.668854 1.6520147 
p47 1387 0.3125000 0.48540576 2.504092 2.5625835 2.413498 2.6402087 


行 名 称 表 明 在 为 其 寻找 最 相似 的 产品 。 第 一 列 有 它 最 相似 产品 的 信息 。 可 以 用 下 面 代 码 得 
到 和 矩阵 similar 前 面 几 行 相应 产品 的 ID: 
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> levels(Prod) [similar[1i, 1]] 

[1] "p2829" 

179 在 Kolmogorov-Smimov 统计 量 和 置信 度 水 平 列 之 后 ， 我 们 有 产品 的 中 位 数 、IQR 和 最 相似 产品 。 
网 在 90% 显著 性 水 平 下 ， 我 们 可 以 检查 单位 价格 分 布 有 相似 性 的 产品 的 数量 : 


> nrow(similar[similar[, "ks.p"] >= 0.9, J) 





[1] 147 
或 者 ， 更 有 效率 的 方式 ， 


> sum(similar[, "ks.p"] >= 0.9) 

[1] 117 

正如 你 从 少 于 20 个 交易 的 985 个 产品 中 所 看 到 的 ， 我 们 只 能 为 其 中 的 117 个 产品 找到 类 似 
的 产品 。 不 过 ， 当 分 析 哪 些 交易 是 不 正常 交易 时 ， 这 些 都 是 有 用 的 信息 。 对 于 这 117 个 产品 ， 我 
们 可 以 把 更 多 的 交易 纳入 决策 过 程 中 ， 从 而 提高 检验 的 统计 显著 性 水 平 。 我 们 保存 了 similar 对 
象 ， 以 后 需要 产品 之 间 的 这 种 相似 性 时 可 以 直接 使 用 该 对 象 : 


> save(similar, file = "similarProducts.Rdata") 


4.3 定义 数据 挖 据 任 务 


有 些 交 易 报告 被 强烈 怀疑 为 欺诈 交易 ， 这 个 应 用 程序 的 主要 目的 是 运用 数据 挖 扎 工具， 为 
确定 是 否 核 查 这 些 交 易 提 供 指 导 。 由 于 可 用 于 该 检查 任务 的 资源 是 有 限 的 并 且 是 变化 的 ， 因 此 
这 个 指导 应 该 以 欺诈 概率 排序 的 形式 给 出 。 

4.3.1 问题 的 不 同 解决 方法 

数据 集 有 一 列 (nsp) 含有 先前 检验 活动 的 信息 。 这 里 的 主要 问题 是 大 多 数 可 用 的 报告 没有 
被 检验 。 从 确定 已 有 报告 是 否 为 欺诈 的 任务 角度 来 看 ， 变 量 Insp 中 的 unkn 值 和 缺失 值 的 意义 是 
一 样 的 。 这 个 值 代 表 缺 少 这 笔 交 易 是 OK 还 是 欺诈 的 信息 。 也 就 是 说 ,我 们 的 数据 集 有 两 种 类 型 
的 观测 值 。 我 们 有 一 个 较 小 的 数据 集 ， 其 中 的 数据 有 标记 ， 它 有 交易 的 特征 描述 和 检验 的 结果 。 
另外 一 个 较 大 的 数据 集 是 没有 标记 的 ， 它 们 没有 被 检验 ， 列 Insp HEX unkn。 在 这 种 情况 下 ， 

取决 于 用 于 建 模 的 观测 值 的 类 型 ， 我 们 有 不 同 的 建 模 方法 。 

4.3.1.1 无 监督 技术 

对 于 未 被 检验 的 报告 ，Insp 列 没 有 任何 信息 ， 所 以 它 对 分 析 没 有 影响 。 对 于 这 些 观测 值 ， 我 
们 只 有 对 交易 的 描述 。 这 意味 着 这 些 销售 报告 仅仅 有 描述 它 的 自 变 量 。 这 种 类 型 的 数据 适用 于 
非 监 督学 习 技 术 。 这 些 方 法 被 这 么 命名 是 因为 它们 的 目标 不 是 像 有 监督 的 方法 那样 在 “老师 ” 
的 监督 下 学 习 概念 。 有 监督 方法 应 用 的 数据 就 是 它们 所 学 习 概 念 的 例子 (例如 ， 欺 诈 或 者 正常 
交易 的 概念 ) 。 这 就 要 求 领域 专家 预先 就 目标 概念 对 数据 进行 分 类 。 而 检验 结果 未 知 的 报告 则 不 
适用 于 这 种 情况 。 因 此 我 们 面临 的 不 是 预测 任务 ( 即 有 监督 方法 的 目标 ) ， 而 是 一 个 描述 性 的 数 
据 挖 握 任 务 。 

聚 类 分 析 是 描述 性 数据 挖掘 的 一 个 例子 。 聚 类 方法 试图 对 一 组 观测 值 形成 多 个 聚 类 ， 一 个 
聚 类 内 的 个 案 相 似 ， 从 而 找到 这 些 观测 值 的 “自然 ”组 别 。 相 似 性 概念 通常 要 求 由 描述 观测 值 
的 变量 所 定义 的 空间 给 出 一 个 距离 定义 。 这 个 距离 定义 是 衡量 一 个 观测 值 和 其 他 观测 值 之 间距 
离 的 函数 。 上 距离 靠近 的 个 案 通 常 认 为 属于 同一 个 自然 组 。 

异常 值 检测 也 可 以 看 做 是 描述 性 的 数据 控 气 任务。 有 些 异 常 值 (或 称 为 离 群 值 ) 检测 方 
法 假定 数据 的 预期 分 布 ， 把 背离 这 一 分 布 的 任何 值 标记 为 异常 值 。 另 一 个 常见 的 异常 值 检测 
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策略 是 假定 一 个 变量 空间 的 距离 度量 ,然后 把 距离 其 他 观测 值 “ 太 远 ” 的 观测 值 标记 为 异常 
观测 值 。 

从 以 上 的 描述 中 我 们 可 以 知道 在 聚 类 和 异常 值 检 测 之 间 有 很 密切 的 关系 。 基 于 观测 值 之 间 
距离 的 方法 都 是 这 样 的 。 根 据 定 义 ， 异 常 值 是 十 分 不 同 的 个 案 ， 它 们 与 聚 类 中 其 他 观测 值 距 离 太 
远 ， 因 此 不 能 和 聚 类 中 的 其 他 观测 值 一 致 。 这 意味 着 一 个 好 的 数据 集聚 类 不 应 该 在 大 的 数据 类 
中 含有 异常 值 。 至 多 我 们 期 望 该 蜡 常 值 和 其 他 异常 值 类 似 ， 但 根据 定义 ， 这 些 是 罕见 的 观测 值 ， 
因此 不 应 该 形成 一 个 大 的 数据 类 。 

我 们 问题 中 应 用 的 无 监督 技术 有 一 些 约束 条 件 。 事 实 上 ， 我 们 的 目标 是 得 到 一 组 观测 值 的 
异常 值 排序 。 这 个 排序 作为 公司 内 检验 决策 的 基础 。 这 意味 着 选择 的 无 监督 工具 必须 可 以 用 来 
识别 和 排列 异常 值 。4. 4. 1 节 描 述 了 我 们 用 来 解决 这 个 数据 挖 据 任务 的 无 监督 技术 。 

无 监督 学 习 的 参考 文献 

聚 类 分 析 是 一 个 成 熟 的 研究 方法 。 好 的 参考 文献 是 Kaufman 和 Rousseeuw (1990), Murtagh 
(1985) 的 著作 。 更 多 有 关 数 据 挖 气 方 面 的 内 容 可 以 在 很 多 数据 挖掘 的 参考 书 中 找到 ， 例如 Han 
和 Kamber (2006) 的 书 。 很 多 学 科 中 都 有 异常 值 探 测 的 研究 。 标 准 的 参考 资料 包括 Bamet 和 
Lewis (1994) 和 Hawkins (1980) 的 书 。Austin (2004) 和 Chandola 等 人 (2007) 给 出 了 关于 异 
常 值 探测 很 好 的 概述 。 有 关 聚 类 和 异常 值 之 间 的 关系 ， 可 以 参考 Ng 和 Han (1994), Torgo 
(2007) 的 文章 。 

4.3.1.2 有 监督 技术 

有 正常 或 者 欺诈 标记 的 交易 (经 过 检验 ) 集合 可 以 应 用 其 他 类 型 的 建 模 方法 。 有 监督 学 习 
方法 应 用 这 种 有 标记 的 数据 类 型 。 有 监督 学 习 方法 的 目标 是 找到 目标 变量 (需要 学 习 的 概念 ) 
和 一 组 自 变量 (预测 变量 或 者 属性 ) 之 间 的 关系 。 这 个 模型 可 以 认为 是 一 个 与 描述 了 目标 变量 了 
MWEE X,, X, --, X, CMKAWARA BMY =f (X, X, e, X) 的 近似 。 这 个 建 模 技 
术 的 任务 是 得 到 能 够 优化 某 些 选择 准则 的 模型 参数 ， 例 如 ， 最 小 化 模型 误差 。 这 个 搜索 任务 在 学 
习 现 象 的 观测 值 样本 的 帮助 下 进行 ， 即 它 是 基于 包含 所 学 习 概 念 例子 的 数据 集 。 这 些 例子 是 变 
EX, X, °°, X, 了 的 特殊 实例 。 如 果 目 标 变 量 了 是 连续 的 ， 那么 就 有 一 个 (多 元 ) 回归 问 
题 。 如 果 了 是 一 个 名 义 变量 ， 那 么 就 有 一 个 分 类 问题 。 

就 我 们 的 数据 集 而 言 ， 目 标 变量 是 检验 任务 的 结果 ， 它 有 两 个 可 能 取 值 : ok 和 fraud, RE 
味 着 我 们 的 目标 是 学 习 欺 诈 报 告 和 正常 报告 的 概念 。 因 此 我 们 面临 一 个 分 类 问题 。 注 意 ， 由 于 我 
们 不 能 确定 报告 是 否 为 欺诈 ， 所 以 没有 经 过 检验 的 交易 是 不 能 用 在 这 些 任务 中 的 。 这 意味 着 如 
果 我 们 想 要 用 分 类 技术 得 到 一 个 模型 ， 然 后 用 它 来 预测 一 个 给 定 的 报告 是 不 是 欺诈 ， 那 么 我 们 
只 能 用 401 146 个 报告 中 的 15 732 个 报告 作为 训练 样本 。 

我 们 面 对 的 分 类 问题 有 影响 性 能 评估 和 模型 本 身 的 特殊 性 。 这 个 特殊 性 在 于 ， 在 两 个 可 能 
的 类 值 中 ， 一 个 值 的 出 现 频率 远 远 大 于 另 一 个 值 。 实 际 上 ,在 15 732 个 检验 报告 中 ，14 462 个 
是 正常 交易 ， 剩 下 的 只 有 1270 个 报告 为 欺诈 。 此 外 ， 这 个 不 太 频 繁 的 概念 实际 上 是 这 个 问题 中 
最 重要 的 概念 ， 因 为 它 涉及 应 用 的 目的 : 欺诈 侦 测 。 这 意味 着 我 们 必须 选择 这 样 的 评价 标准 ， 它 
能 够 正确 地 衡量 不 频繁 分 类 的 性 能 评价 ， 同 时 我 们 应 该 选择 的 建 模 技术 也 必须 能 够 处 理 非常 不 
平衡 的 数据 。 

本 案例 对 分 类 工具 的 应 用 进行 了 一 些 改变 。 事 实 上 ， 我们 感 兴趣 的 是 按照 可 能 存在 欺诈 的 
概率 大 小 对 交易 排序 。 这 意味 着 对 于 新 报告 组 成 的 测试 集 ， 我们 将 用 模型 决定 哪些 报告 需要 进 
行 检验 。 对 于 给 定 的 测试 个 案 ， 有 些 分 类 算法 只 能 够 输出 该 个 案 的 类 别 标签 。 这 对 于 我 们 的 问题 
是 不 够 的 ， 因 为 它 没有 给 出 划分 为 欺诈 的 个 案 的 排序 。 如 果 有 太 多 这 样 的 个 案 ， 而 检验 资源 有 
限 ， 我 们 就 不 能 决定 先 处 理 哪 一 个 。 我 们 需要 的 是 一 个 概率 分 类 ， 也 就 是 说 ,模型 不 仅 应 该 预测 
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率 来 对 个 案 进行 排序 。 

有 上 监督 学 习 的 参考 文献 . 

有 监督 学 习 (或 者 称 为 预测 模型 ) 是 一 门 成 熟 的 学 科 ， 它 有 很 多 不 同 的 方法 来 获得 未 知 预 
测 函 数 的 逼近 。 任 何 关于 数据 挖掘 的 书 都 包括 这 种 技术 〈 例 如 ，Han 和 Kamber (2006), Hand 
等 (2001) ， 或 者 Hastie 等 (2001) ) 。 类 的 不 平衡 问题 也 是 许多 研究 工作 的 主题 ， 例 如 ，Chawla 
(2005) 或 者 Kubat 和 Matwin (1997) 。 

4.3.1.3 半 监 督 技术 

有 时 候 找 到 有 标记 观测 值 的 成 本 很 大 ， 也 就 是 说 有 目标 变量 取 值 的 个 案 很 难 找到 ， 因 此 有 
了 半 监 督 方法 。 这 种 信息 通常 需要 领域 专家 的 工作 ， 这 增加 了 数据 收集 的 成 本 。 另 一 方面 ， 特 别 
是 随 着 传感器 和 其 他 类 型 数据 自动 采集 装置 的 广泛 使 用 ， 没 有 标签 的 数据 往往 是 容易 获得 的 。 
因此 ， 经 常 遇 到 的 问题 是 很 大 比例 的 数据 没有 标记 ， 而 只 有 少量 的 带 标记 数据 和 它们 一 起 。 正 如 
前 面 所 看 到 的 ， 这 是 本 章 中 应 用 存在 的 情况 。 

半 监 督 技 术 之 所 以 这 样 命名 是 因为 它 可 以 处 理 这 种 存在 有 标记 个 案 和 未 标记 个 案 的 数据 集 。 
通常 有 两 种 不 同 的 半 监 督 方法 。 一 方面 ， 一 种 半 监 督 分 类 技术 是 借助 未 标记 个 案 提供 的 额外 信 
息 来 提高 标准 的 监督 分 类 算法 的 性 能 。 另 一 种 半 监 督 方法 是 半 监 督 聚 类 方法 ， 它 尝试 在 聚 类 过 
程 中 形成 组 别 的 准则 上 包含 一 些 约 束 ， 这 些 约 东 是 基于 标记 的 数据 ， 这 样 就 可 以 对 聚 类 过 程 进 
行 纠偏 。 

半 监 督 聚 类 的 思想 利用 现 有 的 标签 来 对 育 类 过 程 纠偏 ， 使 相同 标签 的 个 案 在 同一 类 中 
(must-link 约束 ) ， 或 者 把 不 同 标 签 的 个 案 放 入 不 同 的 组 中 (cannot-link)。 在 基于 搜索 的 半 监 督 
聚 类 中 ， 改 变形 成 聚 类 的 标准 来 对 方法 纠偏 ， 从 而 找到 合适 的 个 案 聚 类 。 在 基于 相似 性 的 半 监 督 

方法 中 ， 对 算法 使 用 的 指标 进行 优化 以 满足 标记 数据 所 施加 的 限制 。 这 意味 着 ,通过 “ 焉 曲 ” 
距离 的 概念 来 反映 must-link 和 cannot-link 约束 。 

半 监 督 分 类 方法 有 很 多 的 替代 方法 。 一 个 众所周知 的 方法 是 自我 训练 。 这 是 一 个 和 迭代 方法 ， 
它 是 从 获得 有 标记 数据 的 分 类 模型 开始 。 下 一 步 使 用 这 个 模型 来 对 无 标记 数据 进行 分 类 。 把 模 
型 具有 较 高 分 类 置信 度 的 个 案 和 预测 标记 一 起 加 入 到 原始 训练 集 ， 从 而 扩大 了 训练 集 。 使 用 这 
个 新 的 训练 数据 集 ， 重 新 获取 模型 ， 然 后 重复 以 上 整个 过 程 ， 直 到 满足 一 定 的 收敛 准则 。 半 监督 
分 类 模型 的 另 一 个 例子 是 直 推 式 支持 向 量 机 (TSVM) 。TSVM 的 目标 是 获得 一 个 未 标记 数据 集 的 
标记 ， 从 而 使 线性 边界 在 初始 标记 数据 和 未 标记 数据 上 达到 最 大 的 利润 (参见 3.4. 2.2 节 )。 

另外 ,我 们 应 该 考虑 应 用 的 特殊 限制 ， 即 获得 离 群 值 的 排序 。 取 决 于 我 们 是 使 用 半 监 督 聚 类 
方法 还 是 半 监 督 分 类 方法 ， 可 以 使 用 与 前 面 给 出 的 无 监督 和 有 监督 方法 同样 的 策略 相应 地 来 完 
成 我 们 的 任务 。 

半 监 督 方法 的 参考 文献 

半 监 督学 习 方 法 在 研究 上 受到 了 越 来 越 多 的 重视 。Zhu (2006), Seeger (2002) 和 Zhu 
(2005) 对 已 有 工作 给 出 了 很 好 的 概述 文章 。 

4.3.2 评价 准则 

本 节 讨 论 怎 样 评价 模型 。 当 给 出 交易 报告 的 一 个 测试 集 时 ， 每 个 模型 将 产生 这 些 报告 的 排 
序 。 本 节 讨 论 怎样 评价 这 个 排序 。 

我 们 还 描述 了 用 于 获取 选 定 评价 指标 的 可 靠 估计 的 实验 方法 。 

我 们 数据 集 的 特性 是 同时 包括 标记 和 未 标记 数据 。 在 这 个 应 用 中 ， 它 们 被 转化 为 检验 和 未 
检验 的 报告 。 这 增加 了 模型 比较 的 困难 ， 因 为 对 监督 和 无 监督 方法 的 评价 方法 通常 是 不 同 的 。 模 
型 得 到 的 排序 很 可 能 同时 包括 标记 和 未 标记 的 观测 值 。 对 前 者 而 言 ， 很 容易 评价 将 标记 数据 列 


第 4 章 侦 测 欺诈 交易 “131 


人 待 检查 报告 集合 的 正确 性 。 在 未 标记 的 情况 下 ， 因 为 我 们 不 能 确定 这 些 个 案 是 否 为 欺诈 ， 所 以 
这 种 评价 是 比较 困难 的 。 

4.3.2.1 决策 精确 度 与 回潮 精确 度 

对 我 们 的 应 用 而 言 ， 一 个 成 功 模 型 应 该 得 到 一 个 交易 排序 ， 其 中 已 知 的 欺诈 交易 在 排序 的 
项 部。 我 们 的 数据 中 有 欺诈 的 报告 占 少数 。 给 定 一 个 我 们 的 资源 所 允许 检验 的 报告 个 数 上， 我 们 
希望 在 排序 的 顶部 个 位 置 中 ,或 者 只 有 欺诈 交易 的 报告 或 者 未 检验 的 报告 。 然 而 ， 我 们 希望 这 
个 测试 集中 所 有 已 知 的 欺骗 报告 出 现在 这 有 个 位 置 中 。 

正如 我 们 在 3.3.4 节 已 经 看 到 的 ， 当 我 们 的 目标 是 预测 一 个 小 集合 的 罕见 事件 (这 里 是 欺 
骗 ) 时 ， 决 策 精 确 度 和 回溯 精确 度 是 合适 的 评价 指标 。 给 定 检验 限制 大 值 ， 我 们 可 以 计算 排序 的 
最 顶端 大 个 位 置 的 决策 精确 度 和 回溯 精确 度 。 这 个 限定 值 天 决定 了 根据 模型 哪些 报告 应 该 被 检 
验 。 从 监督 分 类 的 角度 看 ， 这 相当 于 把 顶端 的 大 个 位 置 预测 为 fraud 类 ， 其 余 的 则 为 正常 报告 。 
决策 精确 度 告诉 我 们 顶端 大 个 值 的 多 大 比例 事实 上 是 标记 为 欺诈 的 报告 。 回 溯 精 确 度 的 值 给 出 这 
天 个 位 置 所 包含 的 测试 集 的 欺诈 行为 的 比例 。 我 们 应 该 注意 到 ， 所 获得 的 值 是 悲观 的 。 实 际 上 ， 
如 果 顶 端 k 个 值 包 括 的 是 未 标记 的 报告 ， 它 们 不 会 进行 决策 精确 度 和 回溯 精确 度 的 计算 。 但 是 ， 
如 果 对 它们 进行 了 检验 ， 我 们 就 可 以 发 现 它们 实际 上 是 诈骗 交易 ， 因 此 决策 精确 度 和 回溯 精确 
度 可 能 会 更 高 。 

通常 决策 精确 度 和 回溯 精确 度 之 间 有 一 个 权衡 。 比 如 ， 如 果 所 有 测试 集 个 案 都 预测 为 欺诈 
事件 ， 那 么 很 容易 使 决策 精确 度 达到 100% 。 然 而 ， 这 样 的 策略 也 将 不 可 避免 地 导致 非常 低 的 回 
溯 精 确 度 。 但 是 ， 我 们 当前 的 应 用 有 一 些 特殊 性 。 给 定 用 于 检验 行为 的 资源 的 约束 条 件 ， 我 们 真 
正 想 要 的 是 最 大 限度 地 利用 这 些 资 源 。 这 意味 着 ， 如 果 我 们 可 以 用 * 小 时 检查 报告 ， 并 能 够 在 这 
x 小 时 捕捉 到 所 有 的 欺诈 行为 ， 那 么 我 们 很 高 兴 ! 即使 在 这 * 小 时 ， 我 们 实际 上 也 检查 了 一 些 正 
常 的 报告 ， 也 就 是 说 有 较 低 的 回溯 精确 度 。 回 溯 精 确 度 实际 上 是 在 此 应 用 中 的 关键 问题 。 我 们 需 
要 的 是 能 够 用 现 有 的 资源 达到 100% 回溯 精确 度 。 

4.3.2.2 提升 图 和 PR 曲线 

4.3.2.1 节 提 到 计算 给 定 检验 行为 的 决策 精确 度 和 回溯 精确 度 。 在 不 同 的 检验 水 平 下 查看 模 
型 的 性 能 是 一 件 有 趣 的 事情 。 不 同 的 模型 可 能 会 在 不 同 的 水 平 上 占据 一 定 的 优势 ， 而 且 在 比较 
模型 时 ， 这 也 可 能 成 为 有 用 的 信息 。 

决策 精确 度 / 回 淹 精 确 度 (PR) 曲线 是 模型 性 能 对 这 两 者 的 一 种 可 视 化 表示 。 通 过 在 不 同 的 
工作 点 得 到 上 面 两 个 统计 量 的 插值 ， 从 而 得 到 该 曲线 。 这 些 工作 点 由 模型 提供 的 感 兴趣 的 类 别 
排序 的 中 断 点 给 出 。 在 我 们 的 例子 中 ， 这 将 对 应 于 应 用 在 模型 所 产生 的 离 群 值 排 序 上 的 不 同 的 
资源 限制 。 对 不 同 的 限制 水 平 ( 即 检验 更 少 或 更 多 的 报告 ) 进行 迭代 ， 得 到 不 同 的 决策 精确 度 
和 回溯 精确 度 。PR 曲线 允许 这 种 类 型 的 分 析 。 

添加 包 ROCR (Sing et al. ，2009) 包含 多 个 函数 ， 这 些 函 数 对 评估 二 进 制 分 类 【〔( 即 我 们 上 
文 所 提 到 的 有 两 个 分 类 的 问题 ) 非常 有 用 。 这 是 一 个 额外 的 添加 包 ， 必 须 安装 后 才能 使 用 以 下 
的 程序 代码 。 该 添加 包 实 现 了 很 多 评价 指标 ， 而 且 还 包括 如 何 获得 很 多 曲线 的 方法 。PR 曲线 可 
以 很 容易 地 通过 该 添加 包 中 的 函数 得 到 。 使 用 添加 包 非 常 简单 ， 我 们 使 用 模型 的 预测 功能 和 测 
试 集 的 真实 值得 到 类 prediction 的 一 个 对 象 。 这 是 通过 函数 prediction( ) 实现 的 。 由 此 产生 的 结果 
对 象 可 以 当做 函数 performance( ) 的 参数 值 ， 以 获得 一 些 评价 指标 。 最 后 ， 将 郴 数 performance() 的 
运算 结果 用 于 plot( ) 函数 ， 画 出 不 同 的 性 能 指标 曲线 。 以 下 代码 应 用 该 添加 包 的 一 些 示例 数据 
来 说 明 这 个 过 程 : 
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> library (ROCR) 

> data(ROCR.simple) 

> pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels) 

> perf <- performance(pred, "prec", "rec") 

> plot (perf) 

运用 上 述 代码 画 出 的 PR 曲线 如 图 4-5 的 左 图 所 示 。 添 加 包 ROCR 产生 的 PR 曲线 具有 锯齿 
形状 。 这 通常 认为 是 不 明确 的 ， 有 一 种 方法 可 以 克服 这 种 情况 。 也 就 是 说 ， 在 一 个 确定 的 回溯 精 
确 度 r 下 ， 可 以 计算 任何 大 于 或 等 于 7 的 回溯 精确 度 水 平 所 对 应 的 决策 精确 度 的 最 大 值 Prec,,， 
并 把 该 值 作为 水 平 r 的 决策 精确 度 ， 如 式 (4-1) 所 示 。 

Prec,,,(r) = maxPrec(r’) (4-1) 

如 果 我 们 仔细 地 观察 performance() 函数 的 返回 值 ， 我 们 就 会 发 现 有 一 个 名 为 y. values 的 属性 ， 
它 含 有 图 形 y 轴 上 的 值 ， 即 所 绘制 的 决策 精确 度 。 我 们 依据 式 (4-1) 计算 插值 的 决策 精确 度 ， 并 用 
EEK y 轴 坐 标 值 ， 就 可 以 得 到 一 个 无 锯齿 效果 的 图 。 下 面 的 代码 就 实现 了 这 种 理想 的 图 形 ; 


> PRcurve <- function(preds, trues, ...) { 
+ require(ROCR, quietly = T) 
pd <- prediction(preds, trues) 
pf <- performance(pd, "prec", "rec") 
pf@y.values <- lapply(pf@y.values, function(x) rev(cummax(rev(x)))) 

+ plot (pf, ...) 

+ } 

上 述 代码 运用 了 函数 lapply( ) ， 因 为 实际 上 ， 属 性 y values 的 值 是 一 个 列表 ， 它 包括 了 实验 
过 程 中 多 个 和 迭代 的 结果 。 我 们 将 在 本 章 的 后 面 利 用 这 个 事实 。 对 于 每 一 个 决策 精确 度 向 量 ， 用 函 
数 cummax() 和 函数 rev( ) 来 计算 插值 的 预测 精确 度 。 后 一 个 函数 仅仅 是 将 向 量 倒序 排列 ， 而 
函数 cummax( ) 的 功能 是 获得 一 组 数据 的 累计 最 大 值 。 如 果 你 难以 理解 这 一 概念 ， 可 以 用 一 组 向 
量 数 据 来 实验 该 函数 。 函 数 PReurve( ) 已 经 包含 在 本 书 的 添加 包 中 ， 所 以 不 需要 输入 上 述 代码 ， 直 
接 使 用 就 可 以 了 。 可 以 应 用 PReurve( ) 函数 演示 上 面 给 出 的 示例 数据 ， 产 生 图 4-5 的 右 图 : 


> PRcurve(ROCR.simple$predictions, ROCR.simple$labels) 
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图 4-5 平滑 ( 右 ) 和 非 平滑 (£) 的 PR 曲线 


.如 何 用 这 类 曲线 来 评价 异常 值 排序 模型 ? 我 们 有 一 个 含有 变量 Insp (有 3 个 可 能 的 取 值 
1891 unkn、ok 和 fraud) 的 测试 集 ， 以 及 由 某 些 模型 产生 的 测试 集 的 观测 值 排序 。 我 们 要 求 模型 给 出 
: | 测试 集中 每 一 个 观测 值 的 异常 值 排序 分 数 ， 这 些 分 数 的 范围 为 0 ~1。 分 数 越 高 ， 说 明 这 个 观测 
190 | 值 是 欺诈 交易 的 模型 置信 和 度 越 高 。 这 个 分 数 是 获得 观测 值 排序 的 信息 依据 。 
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表 4-1 示例 的 混淆 矩阵 














如 果 我 们 按照 异常 值 分 数 对 测试 集 记录 进行 排序 ， 那么 根据 我 们 检验 的 资源 限制 x， 可 以 计 
算出 不 同 的 预测 精确 度 和 回溯 精确 度 值 。 确 定 检验 资源 限制 等 价 于 选择 上 述 我 们 认为 一 个 观测 
值 为 欺诈 的 异常 值 分 数 的 阔 值 。 我 们 来 看 一 个 小 例子 。 假 设 我 们 有 7 个 测试 样本 ，Insp 列 的 取 值 
为 ok ok, fraud, unknown, fraud, fraud, unknown} 。 假 设 某 个 模型 对 这 些 观测 值 给 出 的 异常 
值 分 数 为 (0.2, 0.1, 0.7, 0.5, 0.4, 0.3，0.25}| 。 如 果 我 们 对 这 些 分 数 进行 排序 ， 得 到 
{fraud, unknown, fraud, fraud, unknown, ok, ok}, HRM A TIE RAR 
B®, 那么 将 等 价 于 模型 把 向 量 | fraud, unknown, fraud, fraud, unknown, ok, ok} 预测 为 向 量 
ffraud，fraud，ok，ok，ok，ok ，ok| 。 这 正好 对 应 于 表 4-1 的 混淆 矩阵 ， 而 且 以 下 的 决策 精确 度 
和 回溯 精确 度 也 是 通过 该 混淆 矩阵 计算 出 的 : 


1 1 
Pree = 77 = 0.5 Rec = 57 = 0.3333 


值得 注意 的 是 ， 就 像 在 4.3.2. 1 节 中 提 到 的 ， 对 于 没有 检验 的 报告 ， 给 出 的 是 决策 精确 度 和 
回溯 精确 度 的 悲观 估计 。 因 此 ， 报 告 中 排名 第 二 的 fraud 的 预测 值 ， 认 为 是 不 正确 的 ， 因 为 它 的 
真实 值 为 unkn， 我 们 不 能 肯定 这 个 值 是 不 是 具有 欺诈 性 。 

我 们 将 运用 这 种 对 于 异常 值 排 序 的 事后 处 理 方式 ， 去 获得 它们 的 决策 精确 度 和 回溯 精确 度 
以 及 相应 的 PR 曲线 。 

提升 图 给 我 们 提供 了 一 个 关于 模型 预测 的 不 同 角度 。 这 些 图 给 回溯 精确 度 更 高 的 重要 性 ， 
因此 在 某 种 程度 上 ， 就 像 在 4. 3. 2. 1 节 最 后 提 到 的 那样 ， 它 更 适合 我 们 的 目标 。 这 些 图 形 的 x 轴 
是 阳性 预测 率 (RPP) ， 它 是 模型 预测 一 个 阳性 类 的 概率 。 这 个 值 由 阳性 分 类 预测 值 的 数量 除 以 
测试 集 的 总 观测 值 数 量 来 估计 。 比 如 在 表 4-1 这 个 例子 中 ， 这 个 值 就 是 (1 +1)/7。 在 我 们 应 用 
程序 中 ， 我 们 可 以 将 这 个 统计 量 视 为 选 定 检验 的 报告 比例 。 提 升 图 的 y 轴 是 用 回潮 精确 度 除 以 
RPP 得 到 的 商 。 

我 们 可 以 用 ROCR 包 中 的 函数 绘制 提升 图 。 以 下 是 一 个 应 用 示例 ， 得 到 提升 图 如 图 4-6 的 左 


图 所 示 。 


> pred <- prediction(ROCR. simple$predictions, ROCR.simple$labels) 
> perf <- performance(pred, "lift", "rpp") 
> plot(perf, main = "Lift Chart") 


尽管 在 我 们 这 个 特定 应 用 中 并 不 是 完全 要 说 明 提 升 图 的 有 用 性 。 一 个 更 有 趣 的 图 将 会 给 我 
们 演示 根据 RPP 所 捕获 的 检验 限制 得 到 的 回 湖 精确 度 值 。 这 个 曲线 命名 为 累积 回潮 精确 度 图 ， 
这 个 图 可 以 通过 ROCR 包 的 函数 实现 ， 其 代码 如 下 : 


> CRchart <- function(preds, trues, ...) { 
+ require(ROCR, quietly = T) 

+ pd <- prediction(preds, trues) 

+ pf <- performance(pd, "rec", "rpp") 
+ plot(pf, ...) 

+} 


再 次 应 用 前 面 的 虚拟 例子 ， 得 到 图 4-6 的 右 图 : 
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> > GRcharé (ROCR. simple$predictions, ROCR. sinple$labels, 
main='Cumulative Recall Chart') 
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图 4-6 提升 图 〈 左 图 ) 以 及 累积 回 湖 精 确 度 图 (AE) 


对 累积 回溯 精确 度 图 而 言 ， 模 型 的 曲线 越 靠近 左上 角 ， 模 型 越 好 。 本 书 的 添加 包 中 有 函数 
CRehart( ) ， 只 要 安装 了 该 包 ， 任 何 时 候 都 可 以 使 用 它 。 
4.3.2.3 标准 价格 的 标准 化 距离 
在 前 面 的 章节 中 我 们 看 到 的 性 能 评价 方法 ， 仅 是 对 有 标记 报告 的 排序 进行 评价 。 它 们 是 监 
督 分 类 的 评价 指标 。 由 模型 得 到 的 这 些 排名 的 前 面 位 置 极 有 可 能 包含 未 标记 的 报告 。 这 些 未 标 
记 的 报告 是 否 在 排序 中 有 正确 的 位 置 呢 ? 我 们 不 能 肯定 这 一 点 ， 因 为 我 们 没有 对 它们 进行 检验 。 
不 过 ， 我 们 可 以 对 它们 进行 浅显 的 分 析 。 例 如 ， 我 们 可 以 把 它们 的 单位 价格 和 同一 产品 报告 的 标 
准 价格 进行 比较 。 我 们 预期 这 些 价格 之 间 差 异 是 较 大 的 ， 这 就 是 一 个 提示 ， 说 明报 告 中 有 错误 。 
这 种 情况 下 ， 报 告 的 单位 价格 和 相应 产品 的 标准 单位 价格 的 距离 ， 就 是 模型 所 获得 的 异常 值 排 
名 质量 的 一 个 较 好 指标 。 
不 同 的 产品 有 不 同 规格 的 单位 价格 ， 如 图 4-4 所 示 。 为 了 避免 这 些 不 同 价格 对 异常 值 排名 的 
影响 ,我们 对 单位 价格 和 标准 价格 之 间 的 距离 进行 标准 化 。 运 用 IQR (四 分 位 距 ) 来 标准 化 这 个 
距离 : 
lu-b| 
IQR, 





NDTP,(u) = (4-2) 


其 中 六 是 产品 的 标准 单位 价格 ， 是 该 产品 交易 的 单位 价格 的 中 位 数 ， 而 IQR, 是 该 产品 单位 价 
格 的 四 分 位 距 。 

在 我 们 的 实验 中 ， 我 们 使 用 NDTP, 的 平均 值 作为 评价 模型 性 能 的 一 个 指标 。 以 下 的 程序 代 
码 用 来 计算 这 个 统计 量 : 

> avgNDTP <- function(toInsp,train,stats) { 

+ if (missing(train) && missing(stats)) 

+ stop('Provide either the training data or the product stats') 

+ if (missing(stats)) { 

+ notF <- which(train$Insp != 'fraud') 

+ 

+ 


stats <- tapply(train$Uprice[notF], 
list (Prod=train$Prod[notF]), 
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function(x) { 
bp <- boxplot.stats(x)$stats 
c(median=bp [3] , iqr=bp[4]-bp[2]) 
}) 
stats <- matrix(unlist (stats), 
length (stats) ,2,byrow=T, 
dimnames=] ist (names (stats) ,c('median' ,'iqr') 
stats [which (stats[,'iqr'J==0) ,'igqr'] <- 
stats (which(stats[,'igqr']==0) ,'median'] 
} 


mdtp <- mean (abs (toInsp$Uprice-stats[tolnsp$Prod,'median']) / 
stats [toInsp$Prod,'iqr']) 


+ 十 + 二 十 十 十 十 十 + 二 + 十 


+ 


return (mdtp) 

+} 

上 述 函 数 是 把 模型 所 选择 的 用 于 检验 的 交易 作为 主要 参数 。 其 次 ， 它 必须 接收 训练 集 数 据 
以 获得 每 个 产品 的 中 位 数 和 四 分 位 距 ， 或 者 接收 已 经 准备 好 了 具有 这 一 组 信息 的 数据 结构 ， 这 
样 可 以 提高 反复 调用 此 函数 时 的 计算 效率 。 如 果 接 收 的 是 训练 数据 ， 那 么 函数 将 用 训练 集 数 据 
计算 每 一 个 产品 的 无 欺诈 交易 的 中 位 数 和 四 分 位 距 。 那 么 可 能 会 发 生 四 分 位 距 为 0 的 情况 ， 特 别 
是 在 产品 交易 量 较 少 的 情况 下 。 为 了 避免 计算 NDTP, 时 除数 为 零 的 情况 ， 我 们 把 该 情况 下 的 四 
分 位 距 设 置 为 中 位 数 的 值 。 

4. 3.3 实验 方法 

我 们 使 用 的 数据 集 的 大 小 很 合理 。 这 种 情况 下， 我 们 选择 保留 (Hold Out) 方法 来 进行 实验 
比较 是 有 意义 的 。 这 个 方法 把 已 有 的 数据 集 随机 地 分 成 两 部 分 (通常 的 比例 为 70% 和 30% ) ， 其 
中 的 一 部 分 用 于 获取 模型 ， 而 另 一 部 分 用 来 测试 。 如 果 有 必要 ， 这 个 过 程 可 以 重复 多 次 ， 以 确保 
获得 的 结果 更 稳健 。 我 们 数据 集 的 容量 可 以 确保 我 们 获得 的 结果 在 统计 学 上 是 可 靠 的 。 如 果 我 
们 选择 30% 的 数据 作为 验证 集 ， 就 相应 于 120 343 个 报告 。 

在 这 种 情况 下 ， 困 难 就 是 不 同类 型 报告 之 间 分 布 的 不 均衡 性 ， 即 在 标记 个 案 上 是 不 平衡 的 。 
正常 的 重 抽样 策略 可 能 会 导致 一 个 测试 集 的 正常 报告 /欺诈 报告 的 不 同 分 布 。 当 有 这 种 不 均衡 的 
分 布 类 型 时 ， 推 荐 使 用 分 层 抽样 方法 。 这 种 方法 从 具有 不 同类 型 的 观测 值 袋 子 中 随机 抽样 ， 以 确 
保 所 抽取 的 样本 遵守 初始 数据 的 分 布 。 例 如 ， 如 果 有 10% KH RATX, RRK 90% 都 是 属 
于 类 了， 就 把 所 有 的 观测 值 放 和 人 两 个 独立 的 袋子 中 。 如 果 想 要 一 个 有 100 个 样本 的 随机 分 层 抽 
样 ， 就 从 有 类 式 的 观测 值 袋 子 中 随机 抽取 10 个 样本 ， 然 后 剩余 的 90 个 样本 从 有 类 了 观测 值 的 袋 
子 中 抽取 ， 这 样 做 就 遵守 了 最 开始 的 类 比例 。 

在 本 书 的 R 添加 包 中 ， 有 一 个 holdout( ) 函数 ， 它 的 作用 和 第 3 章 中 的 交叉 验证 和 蒙特 卡 罗 
实验 类 似 ， 用 于 进行 hold-out 实验 。 该 函数 的 一 个 参数 ， 是 hldSetting 类 对 象 ， 它 用 于 设置 实验 。 
在 其 他 参数 中 ， 这 个 对 象 允许 你 指定 应 用 分 层 抽样 方法 。4. 4 节 给 出 了 几 个 应 用 该 聘 数 来 获取 我 
们 选 定 的 评价 统计 量 的 hold-out 估计 值 的 例子 。 这 些 选 定 的 统计 量 是 决策 精确 度 、 回 滴 精 确 度 和 
平均 NDTP。 下 面 的 函数 用 来 计算 这 些 指标 : 


> eval0utlierRanking <- function(testSet,rankOrder,Threshold,statsProds) { 
+ ordTS <- testSet [rankOrder,] 

N <- nrow(testSet) 

nF <- if (Threshold < 1) as.integer(Threshold*N) else Threshold 

cm <- table(c(rep('fraud', nF), rep('ok',N-nF)) ,ordTS$Insp) 

prec <- cml['fraud' ,'fraud'] /sum(cm['fraud' ,]) 

rec <- cn['fraud' ,'fraud']/sum(cm[,'fraud']) 


++ eet 
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+ AVGndtp <- avgNDTP(ordTS[nF,] ,stats=statsProds) 

+ return(c(Precision=prec,Recall=rec,avgNDTP=AVGndtp)) 

+} 

该 函数 需要 用 户 提供 测试 集 、 模 型 产生 的 该 测试 集 的 排序 、 一 个 指定 检测 限 值 的 闹 值 (无 
论 是 百分比 或 报告 的 数量 ) 和 产品 的 统计 量 〈 中 位 数 和 四 分 位 距 )。 

在 4.2.3.2 节 中 ， 我 们 观察 到 的 产品 相当 不 同 ， 实 际 上 有 些 产品 有 很 少 的 交易 。 因 此 ， 我 们 
可 以 质疑 一 起 分 析 所 有 产品 的 交易 是 否 有 意义 。 支 持 一 起 检查 它们 是 因为 有 一 个 变量 (产品 ID) 
可 以 用 来 区 分 产品 ， 因 此 如 果 有 必要 ， 建 模 技 术 可 以 使 用 该 变量 。 此 外 ， 把 所 有 交易 放 在 一 起 ， 
模型 可 以 利用 这 些 产品 之 间 的 关系 。 然 而 ， 另 一 种 是 依次 分 析 每 一 个 产品 ， 获 得 它们 相应 交易 的 
离 群 值 评分 排序 。 这 就 需要 一 个 额外 的 步骤 ， 即 从 单个 产品 的 排名 获得 最 终 的 全 局 排名 ， 但 该 步 
又 比较 简单 。 我 们 将 会 对 应 用 不 同 策略 建立 的 模型 进行 实验 。 从 实验 方法 的 角度 来 看 ， 我 们 把 所 
有 的 产品 聚 在 一 起 。 在 这 些 交易 中 ， 我 们 将 用 分 层 保 留 策略 来 随机 选择 一 个 测试 集 。 这 个 测试 集 
将 应 用 于 不 同 的 建 模 技 术 ， 它 们 将 返回 按照 这 些 交 易 为 欺诈 的 概率 估计 的 排序 。 本 质 上 ， 模 型 可 
以 决定 对 产品 进行 单个 分 析 或 一 起 分 析 所 有 产品 。 


4.4 计算 离 群 值 的 排序 


本 节 描 述 用 于 获取 离 群 值 排序 的 不 同 模型 。 对 于 每 一 次 尝试， 我 们 都 采用 70% /30% 的 分 层 
保留 策略 来 估计 结果 。 
4.4.1 无 监督 方法 

4.4.1.1 修正 的 箱 图 规则 

在 4.2.2 节 中 ,我们 定义 了 箱 图 规则 ， 用 于 侦 测 一 个 服从 近 正 态 分 布 的 连续 变量 的 离 群 值 。 
例如 ， 产 品 的 单位 价格 这 个 例子 。 基 于 此 ， 我 们 可 以 把 这 个 简单 的 规则 看 做 是 可 以 应 用 于 本 章 数 
据 的 基准 方法 。 

应 用 箱 图 规则 发 现 每 一 个 产品 交易 中 的 异常 单位 价格 ， 从 而 识别 出 一 些 可 能 是 离 群 值 的 数 
值 。 我 们 可 以 把 一 个 规律 用 于 任何 一 个 出 现在 已 给 测试 集中 的 产品 交易 集合 上 。 最 后 ， 我 们 得 到 
每 一 个 产品 可 能 的 离 群 值 集合 。 我 们 需要 决定 怎么 从 这 些 离 群 值 组 合 得 到 整个 测试 集 的 离 群 值 
排序 。 这 意味 着 为 了 排序 ， 我 们 必须 能 够 清晰 地 区 分 出 离 群 值 。 一 个 可 能 的 方法 就 是 4.3.2.3 节 
描述 的 标准 化 到 标准 (中 位 数 ) 单位 价格 (NDTP) WER., APTA MAA 
形 ， 因 为 两 者 都 用 到 中 心 值 的 距离 来 决定 一 个 值 的 “ 离 群 程度 ”"。 这 种 方法 (NDTP) 的 优点 在 
于 它 是 一 种 无 量 纲 的 度量 ， 因 此 可 以 将 不 同 产品 的 数值 混 放 在 一 起 ， 从 而 给 出 一 种 适用 于 全 部 
测试 集 数据 的 全 局 排序 。 


> BPrule <- function(train,test) { 
+ notF <- which(train$Insp != 'fraud') 
ms <- tapply(train$Uprice [notF] , list (Prod=train$Prod[notF]), 
function(x) { 
bp <- boxplot.stats(x)$stats 
c(median=bp [3] , iqr=bp [4] -bp[2]) 


ms <- matrix(unlist (ms), length (ms) ,2,byrow=T, 
dimnames=list (names (ms) ,c('median!' ,‘igr'))) 
ms [which(ms[,'igr']==0) ,‘igr'] <- ms[which(ms[,'igqr']==0) ,'median'] 
ORscore <~ abs(test$Uprice-ms [test$Prod,'median']) / 
ms [test$Prod,'igqr'] 
return (list (rankOrder=order (ORscore, decreasing=T) , 
rankScore=0Rscore)) 


二 十 十 二 十 十 十 十 十 十 十 十 十 
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上 述 函 数 的 参数 是 训练 集 和 测试 集 。 在 计算 出 每 一 种 产品 的 中 位 数 和 四 分 位 距 (QR) 后 ， 
这 个 函数 就 用 这 些 统计 量 利用 式 (4-2) 来 计算 离 群 值 分 数 。 最 后 ， 它 返回 一 个 由 离 群 值 分 数 和 
测试 集 观察 值 排序 所 组 成 的 列表 。 假 设 这 个 方法 用 NDTP 值 来 得 到 排序 ， 那 么 可 预见 这 个 指标 的 
平均 值 可 以 很 好 地 进行 评分 。 

注意 ， 这 里 是 我 们 应 该 应 用 产品 之 间 相 似 性 信息 的 地 方 。 实 际 上 ， 对 于 交易 量 不 多 的 产品 ， 
我 们 可 以 考虑 检验 是 否 有 产品 的 单位 价格 分 布 显 著 地 与 该 产品 相似 。 如 果 存 在 这 样 的 产品 ， 就 
把 它 的 交易 加 入 ， 因 此 可 以 用 一 个 较 大 的 样本 来 估计 中 位 数 和 IQR 统计 量 。 这 可 以 通过 调用 函数 
tapply( ) 来 实现 ， 这 里 我 们 包括 有 关 相 似 产品 的 信息 ， 它 们 存储 在 文件 “ similarProducts. Rdata” 
中 (参见 4.2.3.2 节 的 最 后 )。 这 一 点 留 给 读者 自行 练习 。 

我 们 现在 用 保留 实验 方法 来 评价 这 个 简单 的 方法 。 为 了 计算 每 种 产品 的 平均 NDT 值 ， 首 先 
计算 每 一 种 产品 的 中 位 数 和 IQR 值 。 然 后 我 们 用 所 有 可 用 的 数据 来 进行 以 上 计算 ， 因 为 我 们 站 
在 得 到 这 些 值 最 精确 的 估计 ， 从 而 能 够 正确 评价 模型 的 离 群 值 排序 能 力 。 因 为 全 局 信息 没有 传 
递 给 建 模 技术 ， 所 以 这 里 不 能 认为 是 从 测试 数据 给 出 信息 (避免 模型 和 测试 集 相关 )。 这 只 是 得 
到 模型 侦 测 异常 值 能 力 更 可 靠 的 估计 方式 。 


> notF <- which(sales$Insp != 'fraud') 
> globalStats <- tapply(sales$Uprice [notF], 
+ list (Prod=sales$Prod [notF]), 
function(x) { 
bp <- boxplot.stats(x)$stats 
c(median=bp[3] , iqr=bp[4]-bp[2]) 
}) 
globalStats <- matrix(unlist (globalStats), 
length (globalStats) , 2, byrow=T, 
dimnames=list (names (globalStats) , c('median' ,‘iqr'))) 
globalStats [which(globalStats[,'iqr']==0) ,'iqr'] <- 
globalStats [which (globalStats[,'igqr']==0) ,'median'] 


holdOut() 函数 需要 调用 一 个 过 程 ， 从 而 给 实验 过 程 的 每 一 次 迭代 获得 和 评估 BPmle 方法 。 
在 前 面 几 章 中 的 交 又 验证 和 蒙特 卡 罗 实 验 中 ,我 们 为 其 他 学 习 系 统 建立 了 类 似 的 用 户 函数。 这 
些 函 数 返 回 一 个 向 量 ， 其 值 为 给 定 训练 集 和 测试 集 的 模型 评估 统计 量 的 值 。 这 次 我 们 需要 其 返 
回 更 多 的 信息 。 为 了 绘制 PR 图 ， 以 及 累积 回溯 精确 度 曲线 ，ROCR 添加 包 函 数 还 需要 知道 每 一 
个 测试 样本 观测 值 的 预测 值 和 真实 值 。 因 此 也 需要 函数 返回 这 些 数值 (预测 值 和 真实 值 ) ， 以 便 
后 面 绘制 曲线 。4. 3. 2. 2 节 用 一 个 虚拟 的 小 例子 演示 了 绘制 图 形 所 要 应 用 的 信息 。 下 面 代码 给 出 
的 函数 将 在 holdOut() 中 调用 ， 它 将 返回 评价 统计 量 的 值 以 及 带 有 预测 值 和 真实 值 信息 的 属性 。 


> ho.BPrule <- function(form, train, test, ...) { 
+ res <- BPrule(train,test) 


t+VttvVbr eet 


+ structure (eval0utlierRanking (test ,res$rankOrder,...), 

+ itInfo=list (preds=res$rankScore, 

+ trues=ifelse(test$Insp=="'fraud', 1,0) 
+ ) 

+ ) 

+} 


大 多 数 R 对 象 可 以 有 附带 的 属性 。 实 际 上 ， 它 是 把 一 个 其 他 对 象 附加 到 前 一 个 对 象 中 ， 这 
些 附 加 对 象 给 前 一 个 对 象 额外 信息 〈 例 如 维 数 等 ) 。 在 这 个 例子 中 ， 我 们 给 向 量 附加 了 BPrule 方 
法 的 分 数 ， 它 含有 预测 分 数 和 预测 分 数 相应 的 真实 值 。 函 数 structure() 用 来 建立 一 个 对 象 并 指 
定 该 对 象 的 属性 值 。 这 些 属性 要 有 一 个 名 字 并 包含 一 个 R 对 象 。 这 里 我 们 用 structure( ) 函数 创 
建 一 个 带 有 itsInfo 属性 的 对 象 。 实 验 过 程 中 的 每 一 次 迄 代 ，holdOut( ) 函数 保存 这 些 属性 信息 。 
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为 了 存储 这 些 信息 ， 需 要 调用 带 有 可 选择 参数 itsInfo =T 的 holdOut() 函数 。 这 样 就 能 确保 那些 
所 谓 的 “用 户 定义 ”的 函数 无 论 返 回 什 么 名 为 itsInfo 的 属性 结果 ， 它 们 都 会 被 收集 在 一 个 列表 
中 ,并 且 返 回 为 一 个 带 有 itsInfo 属性 的 结果 作为 函数 holdOut( ) 的 结果 。 

我 们 已 经 准备 好 运行 holdOut( ) 函数 来 得 到 BPrule 系统 选 定 的 统计 量 的 值 。 我 们 将 会 使 用 
70% /30% 分 层 抽 样 策略 来 对 整个 数据 集 进 行 划分 ， 并 对 一 个 预先 定义 的 检验 限制 值 10% 来 计算 
决策 精确 度 和 回溯 精确 度 。 在 某 种 意义 下 ， 预 定义 的 10% 检验 限制 条 件 的 设 定 是 随意 的 ， 也 可 
以 选择 其 他 的 限制 值 。 该 系统 对 不 同 限 制 值 的 全 局 性 能 由 PR 和 累积 回 湖 精 确 度 曲线 给 出 。 我 们 
将 对 以 上 实验 过 程 重复 三 次 ,基于 此 得 到 保留 估计 。 


> bp.res <- holdOut (learner ('ho.BPrule', 

+ pars=list (Threshold=0. 1, 
statsProds=globalStats)), 

dataset (Insp ~ .,sales), 

hidSettings(3,0.3,1234,T), 

itsInfo=TRUE 

) 


设置 函数 hldSettings( ) 的 第 四 个 参数 为 TRUE ， 表 明 使 用 分 层 随 机 抽样 。 其 他 参数 规定 了 重 
复 次 数 、 保 留 集 (hold-out) 个 案 所 占 的 百分比 、 随 机 数 种 子 等 。 
本 次 实验 结果 的 总 结 如 下 : 


> summary (bp.res) 


+ 二 十 二 二 


= Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


*Dataset :: sales 

*Learner :: ho.BPrule with parameters: 
Threshold = 0.1 
statsProds = 11.34 ... 


*Summary of Experiment Results: 


Precision Recall avgNDTP 

avg 0.016630574 0.52293272 1.87123901 

std 0.000898367 0.01909992 0.05379945 

min 0.015992004 0.51181102 1.80971393 

0.017657838 0.54498715 1.90944329 

invalid 0.000000000 0.00000000 0.00000000 

结果 的 决策 精确 度 和 回溯 精确 度 都 是 相当 低 的 。 平 均 只 有 52% 的 已 知 欺诈 包含 在 用 BPrule 
给 出 的 报告 欺诈 排序 的 前 10% 的 位 置 中 。 低 的 回溯 精确 度 意味 着 10% 的 检验 努力 可 能 不 能 包含 
所 有 的 欺诈 交易 ， 但 是 考虑 到 测试 集中 欺诈 的 比例 和 很 低 的 决策 精确 度 值 ， 这 是 不 正确 的 。 极 低 
的 回溯 精确 度 值 意味 着 该 方法 在 排序 的 顶部 大 部 分 放 入 的 是 unkn 或 者 ok 报告 。 考 虑 到 NDTP 的 
相对 高 分 值 ， 我 们 至 少 可 以 确定 这 些 顶 部 报告 的 单位 价格 和 标准 价格 是 不 相同 的 。 事 实 上 ， 
NDTP 的 平均 值 为 1.8， 意 味 着 同一 种 产品 报告 中 的 单位 价格 和 中 位 数 价格 大 约 为 这 些 价格 IQR 
(四 分 位 距 ) 的 1.8 倍 。 假 定 IQR 包括 50% 的 报告 ， 它 意味 着 这 些 交易 是 很 异常 的 。 

为 了 获得 PR 图 和 累积 回溯 精确 度 图 ， 我 们 需要 有 方法 在 每 一 次 保留 (hold-out) 重复 上 的 
离 群 值 分 数 ， 以 及 真实 的 “类 ”标签 。 我 们 所 调用 的 函数 通过 应 用 每 一 次 迭代 (ho. BPrule( ) ) 
的 排序 方法 返回 这 些 值 作为 统计 量 向 量 的 属性 。 范 数 holdOut( ) 把 每 一 次 迭代 得 到 的 这 些 额 外 信 
息 收 集 在 一 个 列表 中 。 该 列表 作为 栅 数 holdOut( ) 产生 对 象 的 itsInfo 属性 返回 。 为 了 获得 绘图 函 
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数 所 要 求 的 格式 信息 ， 需 要 一 些 额 外 的 步骤 。 以 下 代码 的 结果 即 为 显示 在 图 4-7 中 的 曲线 。 
> par(mfrow=c(1,2)) 
> info <- attr(bp.res,'itsInfo') 
> PTs.bp <- aperm(array(unlist (info) ,dim=c (length (info[[1]]),2,3)), 


+ ¢(1,3,2) 

+ ) 

> PReurve(PTs.bp[,,1],PTs.bp[,,2], 

+ main='PR curve',avg='vertical') 

> CRchart (PTs.bp[, ,1] ,PTs.bpl[, ,2], 

+ main='Cumulative Recall curve',avg='vertical') 


第 一 条 语句 把 图 窗口 分 成 两 个 ， 这 样 可 以 并 排 显示 两 个 可 视 化 图 形 。 第 二 条 语句 用 函数 attr( ) 
提取 每 一 次 迭代 中 ho. BPrule() 返回 的 包含 预测 值 和 真实 值 信息 的 列表 。 这 个 函数 可 以 用 对 象 的 
任何 属性 名 来 获取 该 属性 的 信息 。 然 后 该 列表 被 转换 成 一 个 3 维 数组 。 第 一 维 是 测试 个 案 ， 第 二 
维 是 保留 (hold-out) 过 程 的 重复 次 数 ， 第 三 维 代表 数值 的 类 型 (1 是 预测 值 ，2 是 真实 值 ) 。 例 
如 , {E PTs. bp[3,2,1] 代 表 这 是 第 三 个 个 案 在 保留 (hold-out) 过 程 的 第 二 次 迭代 的 模型 预测 值 。 
函数 aperm( ) 可 以 用 来 变换 数组 的 维 数 。 如 果 理 解 这 个 复合 语句 有 困难 ， 可 以 试 着 单独 依次 运 
行 每 一 个 函数 ， 查 看 它 的 输出 结果 (用 取 结 果子 集 的 方法 来 避免 输出 量 过 大 ， 因 为 有 的 输出 对 
象 非常 大 )。 


4 
Average recall 


Average precision 
0.6 


0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 06 0.8 1.0 
Average recall Average rate of positive predictions 


图 4-7 BPrule 方法 的 PR 图 (AA) 和 累积 回 湖 精 确 度 曲线 AE) 


两 幅 曲 线 图 都 是 对 每 次 保留 (hold-ou) 过 程 得 到 的 曲线 的 垂直 平均 。 累 积 回 湖 精 确 度 曲线 
给 出 了 这 个 方法 的 全 局 性 能 的 视图 。 我 们 可 以 看 到 在 很 低 的 检验 资源 下 这 个 方法 有 大 约 40% 的 
回 淹 精 确 度 。 但 是 ， 为 了 达到 80% 的 回溯 精确 度 ， 大 约 需 要 检验 25% ~30% 的 报告 。 

4.4.1.2 局 部 离 群 值 因子 

离 群 值 分 类 是 一 个 有 充分 研究 的 主题 。Breunig 等 (2000) 提出 了 局 部 离 群 值 因 子 (Local 
Outlier Factor, LOF) 系统 ， 该 方法 被 认为 是 最 先进 的 离 群 值 排序 法 。 这 个 系统 的 主要 思想 是 试 
着 通过 估计 个 案 和 它 的 局 部 邻 域 的 分 离 程 度 来 得 到 该 个 案 的 离 群 值 分 数 。 这 个 方法 基于 观察 值 
的 局 部 密度 。 在 低 密度 区 域 的 个 案 被 视 为 离 群 值 。 个 案 的 密度 估计 值 是 通过 个 案 之 间 的 距离 来 
获得 的 。 作 者 定义 了 一 些 概念 并 导出 了 计算 每 个 点 的 离 群 分 数 的 算法 。 它 们 是 1) 一 个 点 p 的 中 
心 距 离 概念 ， 定 义 为 该 点 到 第 个 最 近邻 点 的 三 离 ; 2) 个 案 p, 和 个 案 p, 之 间 的 可 到 达 距 离 ， 该 
距离 是 p, 的 中 心 距离 和 两 个 个 案 之 间距 离 的 最 大 值 ; 3) 一 个 点 的 局 部 可 到 达 距 离 ， 该 距离 反比 
于 上 个 可 到 达 距 离 的 平均 值 。 一 个 个 案 的 LOF 是 它 的 局 部 可 到 达 距 离 的 函数 。 
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本 书 的 添加 包 中 包括 了 基于 (Auna et al, 2009) 给 出 的 LO 算法 的 一 个 实现 。 也 就 是 说 ， 
我 们 提供 了 函数 lofactor( ) ， 它 的 参数 是 一 个 数据 集 和 计算 个 案 LOF 时 用 于 指定 近邻 个 数 的 下 值 。 
LOF 的 实现 仅仅 限于 数据 集 为 数值 型 变量 。 实 际 上 这 也 是 很 多 模型 算法 的 常见 限制 。 就 像 我 们 看 
到 的 那样 ,我们 的 数据 集 包 括 了 多 个 名 义 变量 ， 这 意味 着 我 们 不 能 直接 在 这 个 数据 集 上 应 用 该 
函数 。 有 多 种 方法 可 以 解决 这 个 困难 。 第 一 个 方法 改变 LOF 函数 的 源 代码 ， 使 它 应 用 混合 模式 
的 距离 。 有 多 个 距离 函数 可 以 计算 由 不 同类 型 变量 所 描述 的 个 案 间 的 距离 。 其 中 一 个 例子 是 添 
加 包 cluster 中 的 daisy() 函数 。 另 一 个 方法 对 名 义 变量 重新 编码 ， 使 描述 观测 值 的 变量 全 部 为 连 
续 型 变量 。 任 何 有 个 可 能 取 值 的 名 义 变量 可 以 重新 编码 为 n -1 个 二 元 (0/1) 变量 。 在 我 们 
的 应 用 中 这 个 方法 是 有 问题 的 。 比 如 变量 ID 有 6016 个 可 能 值 ， 变 量 Prod 有 4546 个 可 能 值 ， 这 
就 意味 着 如 果 我 们 采用 了 这 个 策略 ， 那 么 数据 集 将 有 10 566 个 变量 。 相 比 于 原始 数据 ， 这 是 非 
常 荒唐 的 增加 量 。 所 以 这 个 方法 不 能 够 解决 我 们 这 里 的 问题 。 第 三 种 方法 单独 处 理 每 个 产品 ， 就 

201 | 像 用 BPrule 方法 那样 。 这 样 一 来 ， 不仅 减 轻 了 处 理 这 个 问题 的 计算 机 要 求 ， 也 能 避免 应 用 Prod 
变量 。 而 且 ， 考虑 到 观测 值 之 间 的 不 同 ( 见 4.2.3.2 节 )， 分 开 处 理 产 品 总 是 一 种 看 似 可 行 的 方 
式 。 因 此 ， 我 们 还 要 确定 怎么 处 理 销售 人 员 信 息 〈 即 变量 卫 ) 。 删 除 该 变量 意味 着 ， 我 们 认为 一 
些 异 常 报 告 是 独立 于 它 的 销售 人 员 的 。 这 个 假设 看 起 来 并 不 很 具 风 险 。 事 实 上 就 算 某 些 销售 人 
员 更 倾向 于 有 欺诈 行为 ， 它 依然 会 反映 在 他 报 出 的 单位 价格 上 。 这 种 情况 下 ， 采 用 删除 这 两 列 
(变量 ID 和 变量 Prod) 并 分 别 对 待 每 一 种 产品 的 方法 比 对 变量 重新 编码 的 方法 看 起 来 更 合理 些 。 
总 之 ,我 们 对 只 用 单位 价格 描述 的 报告 数据 集 应 用 LOF 算法 : 


> ho.LOF <- function(form, train, test, k, ...) { 
+ ntr <- nrow(train) 





+ all <- rbind(train, test) 

+ N <- nrow(all) 

+ ups <- split(all$Uprice,all$Prod) 

+ r <- list (length=ups) 

+ for(u in seq(along=ups)) 

+ r[[u]] <- if (NROW(ups[[u]]) > 3) 

+ lofactor(ups[[u]] ,min(k,NROW(ups[[u]]) %/% 2)) 
+ else if (NROW(ups[[uJ])) rep(0,NROW(ups[[uJ])) 

+ else NULL 

+ all$lof <- vector(length=N) 

+ split(all$lof,all$Prod) <- r 

+ all$lof[which(! (is.infinite(all$lof) | is.nan(all$lof)))] <- 
+ SoftMax (all$lof [which(! (is.infinite(all$lof) | is.nan(all$lof)))]) 
+ structure (evalQutlierRanking (test,order(all[(ntr+1):N,'lof'], 
+ decreasing=T),...), 
+ itInfo=list (preds=all [(ntr+1):N,'lof'], 

+ trues=ifelse (test$Insp=="'fraud',1,0)) 

+ ) 

+} 


上 述 函 数 得 到 了 在 训练 集 和 测试 集 上 应 用 LOF 方法 计算 出 的 评估 统计 量 。 我 们 的 方法 是 通 
过 合并 训练 集 和 测试 集 ， 用 LOF 方法 来 对 合并 后 的 所 有 报告 进行 排序 。 从 得 到 的 排序 中 ， 我 们 
选择 属于 测试 集 个 案 的 排序 分 数 。 我 们 可 以 只 对 测试 集 进行 排序 ， 但 是 这 样 就 没有 用 上 训练 数 
据 的 信息 。 另 一 个 只 对 训练 集 数据 排序 的 方法 也 是 没有 意义 的 ， 因 为 这 是 无 监督 的 方法 ， 其 结果 
不 能 用 来 对 测试 集 进 行 预测 。 
函数 split( ) 把 全 部 数据 按照 产品 来 对 单位 价格 进行 分 割 。 分 割 的 结果 是 一 个 列表 ， 列 表 的 
元 素 为 相应 产品 的 单位 价格 。 其 中 的 for 循环 对 这 些 单位 价格 集合 进行 循环 ， 应 用 LOF 算法 来 得 
到 每 个 价格 的 一 个 离 群 值 因子 。 这 些 因子 被 收集 在 一 个 按照 产品 排列 的 列表 (r) 中 。 只 有 在 至 
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少 有 三 个 报告 时 ， 我 们 才 应 用 LOF 方法 ， 否 则 所 有 数值 被 标记 为 正常 (分 数 为 0) 。 在 主 循环 之 
后 ,再 次 用 split( ) 函数 把 得 到 的 离 群 值 因子 “添加 到 ”数据 框 al 中 的 相应 交易 中 。 下 一 条 语 
名 的 目的 在 于 将 离 群 值 因子 改变 为 0 ~ 1。 本 书 添加 包 中 的 函数 SoftMax() 即 为 实现 此 目的 。 这 
个 函数 把 一 群 值 “ 挤 压 ”到 0 ~ 1 肉 。 对 于 某 些 交 易 ， 函 数 lofactor( ) 会 出 现 一 些 Inf 和 NaN (无 
穷 或 无 意义 ) 值 ， 基 于 这 个 事实 ， 我 们 要 约束 SoftMax( ) 函数 的 使 用 。 最 后 ， 得 到 排序 的 评估 
分 数 ， 加 上 预测 值 和 真实 值 一 起 ， 作 为 该 函数 的 结果 返回 。 

下 一 步 就 是 就 像 之 前 对 BPrule 方法 那样 ， 用 一 个 保留 (hold-out) 过 程 来 获得 评价 指标 的 估 
计 值 。 我 们 已 经 用 了 和 之 前 一 样 的 设置 ， 特 别 是 用 了 同一 个 随机 数 生成 器 种 子 来 确保 应 用 相同 
的 数据 分 割 。 我 们 设置 lofactor( ) 函数 中 参数 的 值 为 7。 可 以 执行 进一步 的 实验 来 调整 这 个 参 
数 。 当 执行 以 下 指令 之 前 ， 一 条 警告 是 : 取决 于 计算 机 硬件 ， 尽 管 是 以 分 钟 计算 ,但 完成 下 面 的 
代码 可 能 要 用 很 长 的 时 间 。 


> lof.res <- holdOut (learner ('ho.LOF', 
+ pars=list (k=7, Threshold=0.1, 


+ statsProds=globalStats)), 
+ dataset (Insp ~ .,sales), 

+ hidSettings(3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 

LOF 方法 的 结果 如 下 : 


> summary (lof.res) 
== Summary of a Hold Out Experiment == 


Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 
* Learner :: ho.LOF with parameters: 
k = 7 


Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 

ave 0.022127825 0.69595344 2.4631856 

std 0.000913681 0.02019331 0.9750265 

min 0.021405964 0.67454068 1.4420851 

max 0.023155089 0.71465296 3.3844572 

invalid 0.000000000 0.00000000 0.0000000 

你 可 以 观察 到 ， 对 于 10% 的 检验 限制 ， 决 策 精确 度 和 回溯 精确 度 均 高 于 BPrule 方法 得 到 的 
结果 。 特 别 指出 的 是 ， 回 溯 精 确 度 的 值 已 从 52% 增加 到 69% 。 此 外 ， 这 是 伴随 着 NDTP 平均 值 
的 增加 (从 1.8 增加 到 2.4) 。 

可 以 通过 PR 和 累积 回溯 精确 度 曲 线 得 到 一 个 更 加 全 局 的 视角 。 为 了 更 好 地 与 BPrule 方法 比 
BR, 我 们 也 绘制 这 种 方法 的 上 述 两 条 曲线 ， 使 用 参数 add =T， 使 得 多 条 曲线 出 现在 同一 个 图 形 
上 ， 如 图 4-8 所 示 。 

> par(mfrow=c(1,2)) 


> info <- attr(lof.res,'itsInfo') 
> PTs.lof <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 
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c(1,3,2) 


PReurve(PTs.bp[,,1],PTs.bp[,,2], 
main='PR curve',1ty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve (PTs.lof[,,1],PTs.lof[,,2], 
add=T, lty=2, 
avg='vertical') 
legend ('topright',c('BPrule' ,'LOF") ,lty=c(1,2)) 
CRehart (PTs.bp[,,1],PTs.bp[,,2], 
main='Cumulative Recall curve!,lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRchart (PTs.lof[,,1],PTs.lof[,,2], 
add=T, 1ty=2, 
avg='vertical') 
legend('bottomright',c('BPrule','LOF'), 1ty=c(1,2)) 


V++V ++vVvv+i+v+t++v++ 


PR curve Cumulative Recall curve 
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Al 4-8 LOF 方法 和 BPrule 方法 的 PRA (AA) 和 累积 回 湖 精 确 度 曲线 〈 右 图 ) 


对 PR 曲线 的 分 析 (图 4-8 AA) 说 明 ， 对 于 较 小 的 回溯 精确 度 值 ，BPrule 方法 通常 达到 相 
当 高 的 决策 精确 度 。 对 于 高 于 40% 的 回溯 精确 度 值 ， 虽 然 没 有 那么 明显 的 差异 ， 但 趋势 则 相反 。 
就 检验 限 值 所 达到 的 决策 精确 度 而 言 (图 4-8 的 右 图 ) ， 可 以 说 ， 对 低 于 25% ~ 30% 的 检验 限 
值 ， 通常 LOF 方法 要 优 于 BPmle 方法 。 对 于 高 的 检验 限 值 ， 两 者 的 差别 就 不 是 那么 明显 了 ， 它 
们 的 结果 相差 不 太 大 。 鉴 于 该 公司 的 兴趣 在 于 以 较 低 的 检验 努力 〈 较 低 的 检验 限 值 ) 来 降低 成 
本 (假设 获得 了 一 个 好 的 回溯 精确 度 ) ， 我 们 会 对 LOF 方法 更 有 兴趣 。 事 实 上， 对 于 大 约 1S% ~ 
20% 的 检验 限 值 ， 大 约 能 侦 测 70% ~80% 的 诈骗 行为 。 此 外 ， 我 们 应 该 注意 到 对 于 10% 的 检验 
2031 限 值 ，LOF 方法 的 NDTP 值 明显 高 于 BPrule 方法 。 
4.4.1.3 基于 聚 类 的 离 群 值 排 名 
我 们 考虑 的 下 一 个 离 群 值 排名 方法 是 基于 聚 类 算法 的 结果 。 基 于 聚 类 的 离 群 值 排 名 (OR,) 
方法 (Torgo，2007) 采用 分 层 聚 类 法 获得 一 个 给 定数 据 集 的 聚 类 树 。 聚 类 树 是 这 些 聚 类 算法 合 
并 过 程 的 可 视 化 表示 。 对 这 些 树 在 不 同 高 度 水 平 进行 切割 时 将 给 出 数据 的 不 同 聚 类 。 在 最 低 水 
平 ， 得 到 的 类 数 将 与 训练 集中 观测 值 的 个 数 相同 。 它 是 这 些 聚 类 迭代 方法 的 初始 解 。 然 后 该 算法 
把 前 面 步骤 中 得 到 的 某 两 个 类 合并 为 一 个 类 。 这 一 合并 过 程 遵 循 把 更 相似 的 类 合并 在 一 起 的 原 
则 。 当 最 后 的 两 个 类 合并 为 一 个 由 所 有 观测 值 组 成 的 类 时 ， 选 代 过 程 停止 。 聚 类 树 描 述 了 整个 合 
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并 的 过 程 。 基 础 包 stats 中 的 函数 hclust( ) 实现 了 这 种 类 型 聚 类 的 几 个 变 体 。 这 个 函数 返回 的 对 
象 包括 一 个 数据 结构 (merge) ， 该 结构 包括 每 个 合并 步骤 涉及 的 那些 个 案 的 信息 。OR, 方法 以 这 
个 数据 结构 的 信息 为 基础 进行 下 面 的 离 群 值 排序 。 主 要 的 思想 法 是 ， 离 群 值 应 该 不 易于 合并 ， 因 
此 当 它 们 最 终 被 合并 时 ， 它 们 合并 前 所 属 类 的 大 小 和 它们 被 合并 进去 的 类 的 大 小 应 该 相差 很 大 。 
这 也 反映 了 离 群 值 和 其 他 观测 值 是 很 不 相同 的 。 因 此 把 它们 包含 在 含有 更 多 “正常 ”观测 值 的 
类 中 将 明显 地 降低 结果 组 的 相同 性 。 少 数 时 候 ， 离 群 值 与 其 他 观测 值 的 合并 发 生 在 初始 阶段 ， 但 
这 只 限于 类 似 的 离 群 值 。 否 则 ， 它 们 只 会 在 聚 类 过 程 的 后 期 合并 。 通 常 的 情况 是 与 一 个 更 大 的 类 
合并 。 这 是 OR, 方法 所 采用 的 总 体 思路 。 这 种 方法 用 下 面 方法 来 计算 每 一 个 个 案 的 离 群 值 分 数 。 
对 于 每 一 个 合并 两 个 组 (gug) 的 第 i 步 ,计算 以 下 值 : 
len l- lei | 
of (x) = max( 0, poe [人 A P P | ) (4-3) 
其 中 ，g,, 是 x 所属 的 组 ,而 1g,, | 是 该 组 的 大 小 。 请 注意 ， 因 为 我 们 感 兴趣 的 是 较 小 的 组 ， 所 
以 参与 合并 的 两 个 组 中 较 大 组 的 成 员 离 群 值 分 数 将 被 赋 为 0。 在 分 层 聚 类 算法 的 整个 迁 代 过 程 
中 ， 每 个 观察 值 可 以 参与 多 个 合并 过 程 ， 有 时 是 较 大 组 的 成 员 ， 有 时 是 较 小 组 的 成 员 。 数 据 集 的 
每 个 个 案 的 最 终 离 群 值 分 数 由 下 式 给 出 : 
OF ,(«) = max of, (x) (4-4) 
本 书 添 加 包 函 数 outliers. ranking() 用 来 实现 上 面 的 算法 。 下 面 的 函数 使 用 OR, 方法 来 获取 
测试 集中 个 案 的 离 群 值 分 数 和 通常 的 性 能 评价 统计 量 : 


> ho.ORh <- function(form, train, test, ...) { 
+ ntr <- nrow(train) 


+ all <- rbind(train, test) 
+ N <- nrow(all) 
+ ups <- split(all$Uprice,all$Prod) 
+ x <- list (length=ups) 
+ for(u in seq(along=ups)) 
+ r[[u]] <- if (WROW(ups[[u]]) > 3) 
+ outliers. ranking (ups[[u]])$prob. outliers 
+ else if (NROW(ups[[u]])) rep(0,NROW(ups{[u]])) 
+ else NULL 
+ allf$orh <- vector (length=N) 
+ split(all$orh,all$Prod) <- r 
+ all$orh[which(!(is.infinite(allf$orh) | is.nan(all$orh)))] <- 
+ SoftMax(all$orh[which(! (is.infinite(allf$orh) | is. nan(all$orh)))]) 
+ structure (evalOutlierRanking (test, order(all[(atr+1):N,'orh'], 
+ decreasing=T),...), 
+ itInfo=list (preds=all [(ntr+1):N,'orh'], 
+ trues=ifelse(test$Insp=='fraud',1,0)) 
+ ) 
+t 206 


该 函数 与 之 前 的 LOF 方法 很 类 似 。 我 们 再 次 使 用 这 个 方法 来 对 产品 逐个 进行 处 理 ， 主 要 是 
出 于 与 之 前 在 LOF 方法 中 所 描述 的 原因 。 然 而 ， 函 数 outliers. ranking( ) 的 参数 可 以 接收 要 排序 
的 观测 值 的 距离 矩阵 ， 而 不 是 数据 集 。 这 就 是 说 ,我们 可 以 使 用 任何 可 以 处 理 混合 模式 数据 的 距 
离 函 数 来 得 到 距离 矩阵 (Hin, RIME cluster 的 daisy() 函数 )。 但 是 ， 如 果 你 决定 尝试 这 一 
点 ， 由 于 聚 类 这 样 大 的 数据 集 将 要 求 大 量 的 内 存 和 快速 的 处 理 器 ， 所 以 你 将 需要 大 量 的 计算 资 
源 ， 如 集群 等 。 即 使 使 用 这 种 方法 对 每 一 种 产品 单独 处 理 ， 但 在 任何 正常 的 计算 机 上 运行 下 面 全 
部 保留 (hold-out) 实验 的 代码 肯定 需要 一 段 较 长 时 间 。 

与 LOF 方法 类 似 ， 我 们 没有 深入 探索 OR, 方法 的 几 个 参数 值 ， 只 是 简单 地 接受 其 默认 设置 : 


144: 数据 挖掘 与 R 语言 


> orh.res <- hold0ut (learner (‘ho. ORh', 


+ pars=list (Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset (Insp ~ .,sales), 

+ hldSettings (3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 

对 OR, 方法 的 结果 总 结 如 下 : 


> summary (orh.res) 
== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ORh with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.0220445333 0.69345072 0.5444893 
std 0.0006545834 0.01187721 0.3712311 
min 0.0215725471 0.67979003 0.2893128 
max 0.0226553390 0.70133333 0.9703665 
invalid 0.0000000000 0.00000000 0.0000000 


207 OR, 系统 的 决策 精确 度 和 回溯 精确 度 与 BPrule 方法 和 LOF 方法 非常 相似 。 对 于 平均 NDTP 
值 而 言 ， 其 结果 大 大 低 于 其 他 两 个 方法 。 
该 方法 的 PR 和 累积 回 湖 精 确 度 曲线 ， 以 及 以 前 得 到 的 其 他 无 监督 方法 的 曲线 ， 如 图 4-9 所 
示 。 下 面 的 代码 是 用 来 生成 这 些 图 形 。 


> par(mfrow=c(1,2)) 
> info <- attr(orh.res,'itsInfo') 
> PTs.orh <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 


+ c(1,3,2) 

+ ) 

> PReurve(PTs.bp[,,1],PTs.bp[,,2], 

+ main='PR curve',1ty=1,xlim=c(0,1),ylim=c(0,1), 
+ avg='vertical') 

> PReurve(PTs.lof[,,1],PTs.lof[,,2], 

+ add=T, lty=2, 

+ avg='vertical') 

> PReurve(PTs.orh{,,1],PTs.orh[,,2], 

+ add=T, lty=1,col='grey', 

+ avg='vertical') 

> legend('topright',c('BPrule','LOF' ,'ORh'), 

+ lty=c(1,2,1),col=c('black' ,'‘black','grey')) 

> CRchart (PTs.bp[,,1],PTs.bp[,,2], 

+ main='Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
+ avg='vertical') 

> CRchart (PTs.lof[,,1],PTs.lof[,,2], 

+ add=T, 1ty=2, 


+ avg='vertical') 
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> CRchart (PTs.orh(,,1],PTs.orh[,,2], 
+ add=T, 1ty=1,col='grey', 
avg='vertical') 
> > legend (‘bottomright' ,c('BPrule' ,'LOF ,'ORh'), 
+ lty=c(1,2,1) ,col=c(‘black','black','grey')) 


正如 你 可 以 看 到 ， 就 累积 回潮 精确 度 而 言 ，OR, 方法 的 结果 可 与 LOF 方法 相 比 。 然 而 ， 对 
于 PR 曲线 ，OR, 方法 明显 优 于 LOF 方法 ， 以 较 小 的 优势 超过 BPrule 方法 。 


PR curve Cumulative Recall curve 





0.0 0.2 0.4 0.6 0.8 1.0 
Average recall Average rate of positive predictions 


图 4-9 OR;、LOF 以 及 BPrule 方法 的 PR 图 (AA) 和 累积 回 湖 精 确 度 曲 线 〈 右 图 ) 


4.4.2 有 监督 方法 

在 本 节 中 我 们 探讨 一 些 解决 本 章 案例 的 有 监督 分 类 方法 。 考 虑 到 我 们 的 目标 是 获得 一 组 交 
易 报 告 的 排序 ， 我 们 将 有 约束 地 选择 模型 。 我 们 将 只 使 用 能 够 产生 概率 分 类 的 模型 。 对 于 每 个 测 
试 案例 ， 这 些 模型 将 输出 它 属于 每 一 个 可 能 类 的 概率 。 这 些 信 息 将 使 我 们 能 够 根据 测试 集 案例 
属于 “目标 ”类 (BERE) 的 概率 来 对 它们 进行 排序 。 

在 描述 我 们 将 要 用 到 的 一 些 具 体 分 类 算法 之 前 ， 先 讨论 数据 集 所 特有 的 问题 : 类 标签 分 布 
失衡 。 

4.4.2.1 类 失衡 问题 

我 们 数据 集 的 正常 报告 和 欺诈 报告 的 比例 很 不 平衡 。 后 者 明显 是 少数 ， 大 约 只 占 到 检验 报告 
( 即 有 监督 的 个 案 ) 的 8. 1% 。 这 种 类 型 的 问题 可 以 导致 预测 模型 建 模 过 程 中 的 各 种 困难 。 首 先 ， 
它们 需要 合适 的 评价 指标 ， 因 为 众所周知 标准 的 精确 度 〈 或 者 它 的 对 立 面 ， 错 误 率 ) 在 这 些 领 域 
是 明显 不 够 的 。 事 实 上 ， 在 我 们 的 应 用 中 ， 如 果 预 测 所 有 报告 为 正常 报告 将 会 很 容易 地 获得 
90% 左右 的 决策 精确 度 。 由 于 该 类 占 大 多 数 ， 所 以 它 将 给 我 们 显得 非常 高 的 决策 精确 度 水 平 。 类 
失衡 导致 的 另 一 个 问题 是 ， 它 会 强烈 地 影响 学 习 算法 的 性 能 ， 算 法 由 于 少数 类 缺乏 统计 支持 而 忽视 
它们 。 如 果 少 数 类 恰恰 是 最 相关 的 类 ， 就 像 我 们 的 案例 一 样 ， 那 么 失衡 导致 的 问题 尤其 严重 。 

有 多 种 有 助 于 学 习 算 法 克服 类 失衡 问题 的 技术 。 它 们 一 般 分 为 两 类 : 1) 偏 置 学 习 过 程 的 方 
法 ， 它 应 用 特定 的 对 少数 类 更 敏感 的 评价 指标 ; 2) 用 抽样 方法 来 操作 训练 数据 ， 从 而 改变 类 的 
分 布 。 我 们 尝试 使 用 的 有 监督 分 类 方法 属于 第 二 类 方法 。 

有 多 种 抽样 方法 用 于 改变 数据 集中 类 的 失衡 。 一 种 抽样 方法 是 欠 采 样 法 ， 它 从 多 数 类 中 选择 一 
小 部 分 个 案 ， 并 把 它们 和 少数 类 个 案 一 起 构成 一 个 有 更 加 平衡 的 类 分 布 的 数据 集 。 另 一 种 是 过 采样 
方法 ， 它 采用 另外 的 工作 模式 ， 使 用 某 些 进程 来 复制 少数 类 个 案 。 有 许多 上 述 两 种 采样 方法 的 变 
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体 。 一 个 成 功 的 例子 是 SMOTE 方法 (Chawla et al. ，2002) 。 这 种 方法 的 思路 是 用 少数 类 个 案 的 最 
近邻 居 来 人 工 产生 少数 类 的 个 案 。 此 外 ， 多 数 类 的 个 案 仍然 采用 欠 抽 样 方法 。 这 样 就 得 到 了 一 个 
更 加 平衡 的 数据 集 。 本 书 添加 包 中 的 函数 SMOTE( ) 已 经 实现 了 这 种 抽样 方法 。 基 于 失衡 的 样 
本 ， 该 函数 生成 一 个 有 更 加 平衡 类 分 布 的 新 数据 集 。 下 面 的 代码 给 出 了 它 的 一 个 简单 示例 : 


> data(iris) 

> data <- iris[, c(1, 2, 5)] 

> data$Species <- factor(ifelse(data$Species == "setosa", "rare", 
+ "common")) 

> newData <- SMOTE(Species ~ ., data, perc.over = 600) 

> table(newData$Species) 


common rare 
600 350 


这 个 小 例子 使 用 iris 数据 创建 一 个 有 两 个 预测 变量 (为 易于 可 视 化 ) 和 一 个 新 的 目标 变量 的 
人 工 数据 集 ， 它 有 失衡 的 类 分 布 。 该 代码 用 参数 perc. over 的 值 600 调用 函数 SMOTE( ) ， 这 意味 
着 将 为 初始 数据 集 少数 类 的 每 个 个 案 产 生 6 个 新 样本 。 这 些 新 样本 采用 对 初始 个 案 和 其 最 近邻 居 
(默认 情况 下 为 5) 的 某 种 形式 的 随机 插值 方式 产生 。 我 们 的 实现 采用 混合 模式 的 距离 函数 ， 所 
以 可 以 在 SMOTE() 函数 中 应 用 同时 含有 连续 变量 和 名 义 变量 的 数据 集 。 

可 以 通过 绘制 原始 数据 集 和 SMOTE 方法 得 到 数据 集 ， 从 而 了 解 该 方法 。 下 面 代 码 的 结果 如 
图 4-10 所 示 。 


> par(mfrow = c(i1, 2)) 

> plot(data[, 1], data[, 2], pch = 19 + as.integer(datal, 3]), 

+ main = "Original Data") 

> plot(newData[, 1}, newData[, 2], pch = 19 + as. integer(newData[, 
+ 3]), main = "SMOTE'd Data") 


在 有 监督 分 类 算法 的 实验 中 ， 我 们 将 应 用 SMOTE 方法 给 出 的 平衡 训练 集 来 尝试 不 同方 法 的 变 体 。 


Original Data . SMOTE'd Data 
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图 4-10 用 SMOTE 方法 产生 少数 类 的 个 案 


类 失衡 的 参考 文献 

类 失衡 是 一 个 充分 研究 的 课题 。 在 几 个 这 一 特定 主题 的 研讨 会 有 这 个 课题 研究 的 例子 ， 如 
美国 AAAT2000 和 ICML’2003 的 失衡 数据 集 研 讨 会 ， 或 SIGKDD 的 失衡 数据 集 学 习 算 法 中 的 特殊 
问题 (Chawla et al. , 2004), Chawla (2005) 给 出 了 一 个 很 好 的 现 有 工作 的 概述 。 失 衡 类 影响 了 
预测 模型 的 多 个 相关 主题 。 例 子 包 括 预测 模型 的 评价 (例如 ，Provost 和 Fawcett (1997, 2001); 
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Provost et al，(〈(1998) ) ， 或 成 本 敏感 学 习 (例如 ，Domingos (1999); Drummond 和 Holte (2006) ; 
Elkan (2001) ) 。 关 于 类 失衡 的 采样 方法 ， 有 些 参 考 文献 包括 Kubat 和 Matwin (1997), Japkowicz 
(2000) 以 及 Weiss 和 Provost (2003)。 特 别 是 SMOTE 方法 的 主要 参考 文献 是 Chawla et al. (2002) 
和 Chawla et al. (2003), 

4.4.2.2 简单 贝 叶 斯 方法 

简单 贝 叶 斯 (Naive Bayes) 方法 是 基于 贝 叶 斯 定理 的 一 种 统计 分 类 方法 ， 该 理论 应 用 到 预测 
变量 之 间 独 立 这 一 很 强 的 假设 条 件 。 这 些 假 设 在 实际 问题 中 是 很 难 成 立 的 ， 所 以 该 方法 名 为 
“简单 ”。 然 而 ， 该 方法 还 是 很 成 功 地 应 用 于 大 量 的 实际 问题 。 


贝 时 斯 定理 假设 PA | By =P LALPCAD 。 简 单 由 时 斯 分 类 应 用 这 个 定理 来 计算 给 定 测试 
集 个 案 条 件 下 的 类 概率 ; 
P(c|X,,-,X,) = Peo A Le) (4-5) 
这 里 c 是 一 个 类 ，X，.…, RAR ROE 5 


概率 P(e) 可 以 视 为 类 c 的 先 验 预期 WP (X, +, X le) 则 是 在 给 定 类 c 的 条 件 下 测试 
个 案 的 似 然 概率 。 最 后 ， 分 母 是 观测 到 的 证 据 的 概率 。 由 于 分 母 对 所 有 类 都 是 常数 ， 所 以 决策 仅 
仅 取 决 于 方程 中 的 分 子 。 应 用 条 件 概 率 的 统计 定义 和 预测 变量 间 独 立 的 条 件 假设 (简单 的 )， 推 
导出 分 式 中 的 分 子 为 : 


P(e)P(X,,…,X, |e) = P(e) JJ PC, |e) (4-6) 


简单 贝 叶 斯 方法 用 训练 集 样本 的 相对 频 RS HEH EER. 应 用 这 些 估 计 值 ， 该 方法 按照 
式 (4-5) 来 输出 每 一 个 测试 个 案 的 类 概率 。 

R 有 多 个 简单 贝 叶 斯 方法 的 实现 。 我 们 将 应 用 添加 包 e1071 中 的 函数 naiveBayes( ) 。 添 加 包 
klaR (Weihs et al. , 2005) 也 包含 了 贝 叶 斯 分 类 的 实现 ， 同 时 还 提供 了 有 趣 的 可 视 化 函数 。 

下 面 的 函数 用 简单 贝 叶 斯 方法 得 到 测试 集 报告 的 离 群 值 排序 分 数 。 它 应 用 给 定 的 训练 集 样 
本 中 检验 过 的 报告 来 得 到 简单 贝 叶 斯 分 类 模型 。 通 过 估计 属于 类 fraud 的 概率 来 得 到 离 群 值 排序 : 


> nb <- function(train, test) { 
+ require(e1071, quietly = T) 


+ sup <- which(train$Insp != "unkn") 

+ data <- train[sup, c("ID", "Prod", "Uprice", "Insp")] 

+ data$Insp <- factor(data$Insp, levels = c("ok", "fraud")) 

+ model <- naiveBayes(Insp ~ ., data) 

+ preds <- predict(model, test[, c("ID", "Prod", "Uprice”, 

+ "Insp")], type = "raw") 

+ return(list(rankOrder = order(preds[, "fraud"], decreasing = T), 
+ rankScore = preds[{, "fraud"])) 

+ } 

下 面 的 函数 将 被 保留 (hold-out) 例 程 调用 ， 得 到 简单 贝 叶 斯 预测 的 选 定 的 统计 评价 指标 : 
> ho.nb <- function(form, train, test, ...) { 


+ res <--nb(train,test) 


+  structure(evalQutlierRanking (test ,res$rankOrder,...), 

+ itInfo=list (preds=res$rankScore, 

+ trues=ifelse (test$Insp=='fraud',1,0) 
+ ) 

+ ) 

+} 


最 后 ， 调 用 函数 holdOut() ， 采 用 和 前 面 无 监督 模型 相同 的 设置 来 对 这 个 模型 进行 实验 : 
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> nb.res <- holdQut(learner('ho.nb', 


十 pars=list (Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset (Insp ~ .,sales), 

+ hidSettings(3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 


对 于 10% 的 检验 努力 ， 简 单 贝 叶 斯 模型 的 结果 如 下 : 


> summary (nb.res) 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

本 Learner :: ho.nb with parameters: 
‘Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.013715365 0.43112103 0.8519657 
std 0.001083859 0.02613164 0.2406771 
min 0.012660336 0.40533333 0.5908980 
max 0.014825920 0.45758355 1.0650114 
invalid 0.000000000 0.00000000 0.0000000 


得 到 的 分 数 大 大 低 于 前 面 用 无 监督 方法 得 到 的 最 优 分 数 。 

下 面 我 们 绘制 和 前 面 一 样 的 曲线 ， 以 得 到 该 模型 性 能 的 整体 视图 。 我 们 把 简单 贝 叶 斯 方法 
和 最 好 的 无 监督 方法 ，OR, ， 进 行 比 较 : 

> par(mfrow=c(1,2)) 


> info <- attr(nb.res,'itsInfo') 
PTs.nb <- aperm(array (unlist (info) ,dim=c(length(info[[1]]),2,3)), 
c(1,3,2) 
2) 


PRcurve(PTs.nb[,,1],PTs.nb[,,2], 
main='PR curve',1lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve(PTs.orh[,,1],PTs.orh[,,2], 
add=T, 1lty=1,col='grey’, 
avg='vertical') 
legend('topright' ,c('NaiveBayes' ,'ORh'), 
lty=1,col=c('black' ,'grey')) 
CRchart (PTs.nb[,,1],PTs.ub[,,2], 
main='Cumulative Recall curve', 1lty=i1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRcehart (PTs.orh[,,1],PTs.orh[, ,2], 
add=T, 1ty=1,col='grey', 
avg='vertical') 
legend ('bottomright',c('NaiveBayes','ORh'), 
lty=1,col=c('black' ,'grey')) 


图 4-11 所 示 的 图 形 表 明 简 单 贝 叶 斯 方法 明显 不 如 OR, 方法 好 。 两 个 图 形 都 说 明 后 者 在 所 有 
的 情况 下 都 优 于 前 者 。 


+Yv++v++v+v++v++vVv++Yv 
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导致 简单 贝 叶 斯 方法 性 能 差 的 一 个 可 能 原因 是 问题 的 类 失衡 。4. 4. 2. 1 节 给 出 了 几 个 解决 类 
失衡 问题 的 方法 ， 特 别 是 SMOTE 算法 。 下 面 通 过 SMOTE 来 获得 一 个 训练 集 ， 然 后 再 应 用 贝 叶 斯 
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下 面 的 函数 和 之 前 函数 的 主要 不 同 之 处 在 于 下 面 的 函数 对 函数 naiveBayes( ) 的 调用 ， 这 里 214 
用 了 一 个 修改 过 的 训练 集 : 


> nb.s <- function(train, test) { 


+ require(e1071, quietly = T) 

+ sup <- which(train$Insp != "unkn") 

+ data <- train[sup, c("ID", "Prod", "Uprice", "Insp")] 

+ data$Insp <- factor(data$Insp, levels = c("ok", "fraud")) 
+ newData <- SMOTE(Insp ~ ., data, perc.over = 700) 

+ model <- naiveBayes(Insp ~ ., newData) 

+ preds <- predict (model, test[, c("ID", "Prod", "Uprice", 
+ "Insp")], type = "raw") 

+ return(list(rankOrder = order(preds[, "fraud"], decreasing = T), 
+ rankScore = preds[, "fraud"])) 

+} 


Cumulative Recall curve 





0.0 0.2 0.4 0.6 0.8 1.0 
Average recall Average rate of positive predictions 


图 4-11 简单 贝 叶 斯 方法 和 OR, 方法 的 PR 图 ( 左 图 ) 和 累积 回溯 精确 度 曲 线 ( 右 图 ) 





下 面 的 语句 获得 对 简单 贝 叶 斯 SOMTE 版 本 模型 的 保留 (hold-out) 估计 : 


> ho.nbs <- function(form, train, test, ...) { 
+ res <- nb.s(train, test) 


+ structure(eval0utlierRanking(test,res$rankOrder,...), 

+ itInfo=list (preds=res$rankScore, 

+ trues=ifelse(test$Insp=='fraud' ,1,0) 
+ ) 

+ ) 

+} 


nbs.res <- hold0ut (learner ('ho.nbs', 
pars=list (Threshold=0.1, 
statsProds=globalStats)), 
dataset (Insp ~ .,sales), 
hldSettings(3,0.3,1234,T7), 
itsInfo=TRUE 
) 


+e eteev 
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对 于 10% 的 检验 努力 ， 这 个 版 本 的 简单 贝 叶 斯 模型 的 结果 如 下 : 


> summary (nbs .res) 
== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.nbs with parameters: 
Threshold = 0.1 
statsProds = 11.34 

* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.014215115 0.44686510 0.8913330 
std 0.001109167 0.02710388 0.8482740 
min 0.013493253 0.43044619 0.1934613 
max 0.015492254 0.47814910 1.8354999 
invalid 0.000000000 0.00000000 0.0000000 


这 些 结果 和 “正常 ”的 简单 贝 叶 斯 方法 几乎 相差 不 大 。 得 分 仅仅 稍微 好 一 些 ， 仍 然 和 无 监 
督 模型 的 最 好 结果 相差 很 远 。 它 看 起 来 尽管 用 SMOTE 方法 对 少数 类 进行 了 过 采样 ， 但 简单 贝 叶 
斯 方法 仍然 不 能 正确 预测 哪些 报告 是 有 欺诈 的 。 和 前 面 一 样 ， 下 面 绘制 这 个 方法 的 两 个 曲线 图 
来 得 到 该 方法 全 局 性 能 的 全 局 视角 。 


par (mfrow=c(1,2)) 

info <- attr(nbs.res,'itsInfo') 

PTs.nbs <- aperm(array (unlist (info) ,dim=c(length(info[[1]]),2,3)), 
c(1,3,2) 


v 


PReurve(PTs.nb[,,1],PTs.nb[,,2], 
main='PR curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve(PTs.nbs[,,1],PTs.nbs[,,2], 
add=T, lty=2, 
avg='vertical') 
PReurve(PTs.orh[,,1],PTs.orh(,,2], 
add=T, 1ty=1,col="'grey', 
avg='vertical') 
legend ('topright',c('NaiveBayes' ,'smoteNaiveBayes' ,'ORh'), 
lty=c(1,2,1),col=c(‘black' ,'black' ,'grey')) 
CRchart(PTs.nb[,,1],PTs.nb[,,2], 
main='Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRehart (PTs.nbs[,,1],PTs.nbs[, ,2], 
add=T, 1ty=2, 
avg~'vertical') 
CRchart (PTs.orh[,,1],PTs.orh[,,2], 
add=T,1lty=1,col="grey', 
avg='vertical') 
legend ('bottomright' ,c('NaiveBayes' ,'smoteNaiveBayes','ORh'), 
lty=c(1,2,1),col=c(‘black' ,'black' ,'grey')) 


5 图 4-12 确认 了 这 个 SMOTE 版 本 的 简单 贝 叶 斯 方法 令 人 失望 的 结果 。 事 实 上 ， 它 说 明 与 OR。 
网 方法 相 比 ， 它 和 “标准 ”简单 贝 叶 斯 方法 有 同样 差 的 结果 ， 而 且 它 的 性 能 总 是 不 如 标准 的 贝 叶 
216 | 斯 方法 好 。 


+t+Y++vV++vV++tV+vV++vV++vV++v++vyv 
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基于 这 些 结果 ,读者 可 能 问 ， 这 里 为 什么 没有 和 前 面 的 无 监督 方法 一 样 ， 按 照 独立 的 产品 来 
建立 模型 ， 也 许 这 就 是 问题 所 在 呢 。 作 为 练习 ， 你 可 以 按照 这 种 思路 来 运行 简单 贝 叶 斯 模型 。 你 
需要 做 的 就 是 按照 前 面 无 监督 模型 中 代码 所 做 的 ， 按 照 产 品 来 分 割 交 易 ， 然 后 应 用 简单 贝 叶 斯 
模型 。 如 果 你 进行 这 个 练习 ， 你 将 遇 到 的 一 个 额外 困难 是 有 太 少 的 产品 监督 报告 。 事 实 上 ， 即 使 
没有 有 标记 这 一 限制 ， 我 们 还 是 可 以 看 到 多 个 产品 有 太 少 的 交易 。 如 果 加 上 了 有 标记 的 交易 这 
一 限制 条 件 ， 这 个 问题 肯定 会 更 严重 。 





|: | 
fs l: 
3 
0.0 0.2 0.4 0.6 0.8 1.0 
Average recall Average rate of positive predictions 
4-12 两 个 版 本 的 简单 贝 叶 斯 方法 和 OR, 方法 的 PR 图 (AA) 和 累积 回溯 精确 度 曲 线 〈 右 图 ) 
简单 贝 叶 斯 方法 的 参考 文献 


简单 员 叶 斯 方法 是 许多 研究 领域 很 有 名 的 分 类 算法 。 该 主题 的 其 他 参考 资料 包括 Domingos 
和 Pazzani (1997) 的 文章 ，Rish (2001) 的 文章 ，Hand 和 Yu (2001) 的 文章 以 及 Kononenko 
(1991) 的 文章 。 ` 

4.4.2.3 AdaBoost 方法 

AdaBoost 方法 (Freund and Shapire, 1996) 是 属于 组 合 方法 的 一 种 学 习 算法 。 事 实 上， 对 
于 这 种 类 型 的 算法 ， 它 们 的 预测 值 是 通过 对 一 组 基本 模型 的 预测 值 进行 某 种 形式 的 组 合 而 形 
成 的 。AdaBoost 方法 应 用 一 种 自 适 应 增强 方法 来 得 到 一 组 基本 模型 。 假 如 它 比 随 机 分 类 器 好 ， 
那么 增强 方法 是 一 种 常见 的 提高 基本 算法 性 能 的 方法 。AdaBoost 模型 是 通过 序 贯 方式 来 获取 
的 。 序 列 的 每 一 个 新 成 员 都 是 通过 提高 序列 中 前 一 个 模型 的 误差 率 来 获得 的 。 它 通过 一 种 加 
权 模 式 来 提高 模型 性 能 : 它 增加 被 前 一 个 模型 误 分 类 的 个 案 的 权重 。 这 意味 着 基本 模型 用 于 
不 同 分 布 的 训练 集 数据 。 经 过 以 上 过 程 的 几 次 迭代 ， 结 果 是 一 组 在 不 同 训练 集 数据 上 的 基本 
模型 。 这 个 组 合 可 以 用 于 获得 原始 数据 的 测试 个 案 的 预测 值 。 对 单个 基本 模型 的 预测 值 进行 加 
权 平 均 就 可 以 得 到 组 合 预测 值 。 权 重 的 定义 方式 是 ， 最 大 的 权重 赋 给 序列 中 最 后 得 到 的 模型 
(理论 上 最 小 误差 的 模型 ) 。 

AdaBoost 应 用 的 加 权 方 式 对 于 类 分 布 失衡 的 学 习 算法 很 有 意义 。 即 使 在 初始 的 迭代 中 ， 也 有 
少数 个 案 的 类 被 模型 忽略 ， 它 们 的 权重 将 会 增加 ， 模 型 “被 迫 ” 学 习 它 们 。 理 论 上 ， 这 将 导致 
得 到 的 组 合 模型 能 更 精确 地 预测 这 些 稀有 个 案 。 

AdaBoost. M1 是 AdaBoost 方法 的 一 个 特殊 实现 。 它 用 具有 少数 结 点 的 回归 树 作为 基本 模型 。 
添加 包 adabag (Cortes et al. , 2010) 中 的 函数 adaboost. M1( ) 实现 了 该 方法 。 不 幸 的 是 ， 该 模型 
提供 的 predict 方法 不 能 给 出 类 概率 。 对 我 们 的 案例 而 言 ， 这 是 一 个 严重 的 限制 。 如 前 所 述 ， 我 
们 需要 这 些 概率 值 ， 因 为 我 们 要 用 每 个 报告 属于 类 fraud 的 概率 来 得 到 离 群 值 排序 。 因 此 ， 我 们 
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这 里 不 能 应 用 这 个 AdaBoost. M1 算法 的 实现 。 到 本 书写 作 时 ， 上 面 的 函数 是 唯一 的 AdaBoost. M1 
算法 的 R 实现 。 然 而 ， 我 们 可 以 选择 Weka “数据 挖掘 软件 。Weka 是 一 个 数据 挖掘 和 机 器 学 习 的 
开源 软件 。 这 款 优秀 的 软件 提供 了 很 多 具有 友好 用 户 界 面 的 学 习 算法 。 与 R 相 比 ， 它 提供 了 R 
中 所 没有 的 多 个 算法 ， 同 时 它 有 易于 应 用 的 漂亮 用 户 界 面 。 另 一 方面 ，R 在 软件 开发 、 开 发 协议 
方面 有 更 好 的 灵活 性 ， 并 且 它 有 适用 于 更 多 研究 领域 的 建 模 工具 。 由 于 R 的 添加 包 RWeka 
(Hornik et al. ，2009) ， 我 们 才 可 以 在 R 内 应 用 Weka 软件 的 大 部 分 功能 。 如 果 计 算 机 上 安装 有 
Java 软件 ， 那 么 在 安装 该 添加 包 的 同时 也 会 在 该 计算 机 上 安装 Weka 软件 。 如 果 没 有 安装 Java 软 
件 ， 那 么 安装 过 程 会 报错 并 明确 给 出 如 何 做 的 指示 。 我 们 强烈 建议 安装 完 该 添加 包 后 ， 要 阅读 它 
的 帮助 文档 以 了 解 RWeka 可 以 应 用 哪些 方法 。 

218 添加 包 RWeka 的 函数 AdaBoostM1() 通过 Weka 实现 了 AdaBoost M1 分 类 模型 。 与 添加 包 
adabag 的 实现 相反 ， 该 算法 的 predict 方法 可 以 输出 类 概率 ， 因 此 可 以 用 它 来 得 到 我 们 问题 中 的 
离 群 值 排序 。 默 认 情 况 下 ，Weka 的 实现 用 决策 桩 为 基本 模型 ， 决 策 桩 是 一 类 特殊 的 分 类 树 ， 它 
仅 有 一 个 单独 的 测试 结 点 。 这 个 默认 值 和 其 他 设置 都 是 函数 的 参数 ， 如 有 必要 都 可 以 修改 。 函 数 
WOW() 允许 你 检查 一 个 特定 的 Weka 算法 有 哪些 参数 。 下 面 是 该 函数 在 我 们 的 目标 模型 中 应 用 
的 一 个 例子 : 

> library (RWeka) 
> WOW(AdaBoostM1) 


-P Percentage of weight mass to base training on. (default 
100, reduce to around 90 speed up) 
Number of arguments: 1. 


-Q Use resampling for boosting. 

-8 Random number seed. (default 1) 
Number of arguments: 1. 

-I Number of iterations. (default 10) 
Number of arguments: 1. 

-D If set, classifier is run in debug mode and may output 
additional info to the console 

-W Full name of base classifier. (default: 


weka.classifiers.trees.DecisionStump) 
Number of arguments: 1. 


-D If set, classifier is run in debug mode and may output 
additional info to the console 


当 调用 相应 的 函数 时 ， 可 以 通过 参数 control 和 函数 Weka_control() 对 一 些 参 数值 进行 改变 。 
下 面 是 对 著名 的 数据 集 iis， 应 用 函数 AdaBoostM1() 的 一 个 示例 : 


> data(iris) 

> idx <- sample(150,100) 

> model <- AdaBoostM1 (Species ~ .,iris[idx,], 

+ control=Weka_control (I=100)) 
> preds <- predict (model, iris[-idx,]) 

> head (preds) 


[1] setosa setosa setosa setosa setosa setosa 
Levels: setosa versicolor virginica 


> table(preds, iria[-idx,'Species']) 


© http: //www. cs. waikato. ac. nz/ml/weka/. 
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preds setosa versicolor virginica 
setosa 19 0 0 
versicolor 0 13 1 
virginica 0 2 15 


> prob.preds <- predict (model , iris [-idx,],type='probability') 
> head (prob. preds) 


setosa versicolor virginica 
0.9999942 5.846673e-06 2.378153e-11 
0.9999942 5.846673e-06 2.378153e-11 
0.9999942 5.846673e-06 2.378153e-11 
0.9999942 5.846673e-06 2.378153e-11 
10 0.9999942 §5.846673e-06 2.378153e-11 
12 0.9999942 5.846673e-06 2.378153e-11 


这 个 小 例子 也 说 明了 如 何 用 该 模型 获得 分 类 概率 。 

对 于 离 群 值 排序 问题 ， 我 们 现在 准备 了 应 用 这 类 模型 的 必要 函数 。 与 简单 贝 叶 斯 模型 一 样 ， 
我 们 在 所 有 交易 上 应 用 AdaBoost M1 方法 ， 而 不 是 单个 产品 。 下 面 的 函数 得 到 给 定 训练 集 和 测试 
集 的 排序 报告 : 


> ab <- function(train,test) { 
+ require(RWeka,quietly=T) ` 


ONAN 


+ sup <- which(train$Insp != 'unkn') 

+ data <- train[sup,c('ID','Prod','Uprice','Insp')] 

+ data$Insp <- factor(data$Insp,levels=c('ok','fraud')) 

+ model <- AdaBoostM1(Insp ~ .,data, 

+ control=Weka_control(I=100)) 

+ preds <- predict (model,test[,c('ID','Prod','Uprice','Insp')], 
+ type='probability') 

+ yreturn(list (rankOrder=order(preds[,'fraud'] ,decreasing=T), 
+ rankScore=preds[,'fraud']) 

+ ) 

+} 

在 保留 (hold-out) 例 程 中 调用 的 函数 : 

> ho.ab <- function(form, train, test, ...) { 


+ res <- ab(train,test) 


+ structure(evalOutlierRanking(test,res$rankOrder,...), 

+ itInfo=list (preds=res$rankScore, 

+ trues=ifelse (test$Insp=="fraud' ,1,0) 

+ ) 

+ ) 

+} 

最 后 ， 给 出 运行 保留 (hold-out) 实验 的 代码 : 219 
> ab.res <- holdQut(learner(‘ho.ab', 

+ ‘pars=list (Threshold=0. 1, 

+ statsProds=globalStats)), 
+ dataset (Insp ~ .,sales), 

+ hidSettings(3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 


对 于 10% 的 检验 努力 ，AdaBoost 模型 的 结果 如 下 ， 


> summary (ab. res) 


== Summary of a Hold Out Experiment == 
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Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ab with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 
Precision Recall avgNDTP 
avg 0.0220722972 0.69416565 1.5182034 
std 0.0008695907 0.01576555 0.5238575 
min 0.0214892554 0.68241470 0.9285285 
max 0.0230717974 0.71208226 1.9298286 
invalid 0.0000000000 0.00000000 0.0000000 


这 些 结果 属于 目前 得 到 的 最 好 结果 之 一 。 事 实 上 ， 与 LOF MOR, 得 到 的 最 好 结果 相 比 ， 这 
里 的 结果 仍然 很 不 错 。 另 外 ， 我 们 注意 到 这 个 模型 仅仅 应 用 给 定 报告 的 很 小 部 分 (检验 过 的 报 
告 ) 来 得 到 它们 的 排序 。 尽 管 如 此 ， 它 达到 了 稳健 的 回溯 精确 度 值 69% 和 一 个 很 好 的 平均 NDTP 
值 1.5。 

下 面 的 代码 得 到 PR 曲线 和 累积 回溯 精确 度 曲 线 : 


> par(mfrow=c(1,2)) 
> info <- attr(ab.res,'itsInfo') 
> PTs.ab <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 


+ c(1,3,2) 

+ ) 

> PRcurve(PTs.nb[,,1],PTs.nb[,,2], 

+ main='PR curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
+ avg='vertical') 

> PReurve(PTs.orh[,,1],PTs.orh[,,2], 

+ add=T, lty=1,col="grey', 

+ avg='vertical') 

> PReurve(PTs.ab[,,1],PTs.ab[,,2], 

+ add=T, lty=2, 

+ avg='vertical') 

> legend('topright',c('NaiveBayes','ORh','AdaBoostM1'), 

+ lty=c(1,1,2),col=c(‘black','grey','black')) 

> CRehart(PTs.nb[,,1],PTs.nb[, ,2], 

+ main='Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
+ avg='vertical') 

> CRchart (PTs. orh[,,1],PTs.orh[,,2], 

+ add=T,1lty=1,col='grey', 

+ avg='vertical') 

> CRchart(PTs.ab[,,1],PTs.ab[,,2], 

+ add=T, lty=2, 

+ avg='vertical') 

> legend ('bottomright',c('NaiveBayes' ,'ORh','AdaBoostM1'), 
+ lty=c(1,1,2),col=c('black','grey' ,'black')) 


图 4-13 也 确认 了 AdaBoost. M1 算法 的 优秀 性 能 ， 特 别 是 累积 回溯 精确 度 。 该 曲线 显示 对 于 

大 多 数 的 资源 限制 水 平 ，AdaBoost M1 方法 的 分 数 和 OR, 方法 得 到 的 分 数 匹配 。 就 PR 曲线 而 言 ， 

尤其 是 对 低 水 平 的 回溯 精确 度 值 ，AdaBoost. M1 方法 的 性 能 不 是 那么 吸引 人 。 然 而 ， 对 于 较 高 的 

za) 回 湖 精确 度 值 ， 它 明显 地 与 我 们 目前 得 到 的 最 好 的 决策 精确 度 匹配 。 而 且 ， 我 们 注意 到 ， 这 里 较 
a 高 的 回 湖 精 确 度 水 平 恰恰 是 我 们 的 应 用 所 需要 的 。 

222 总 之 ， 对 我 们 的 应 用 而 言 AdaBoost. M 方法 是 一 个 很 有 竞争 力 的 模型 。 尽 管 存在 类 失衡 问 
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题 ， 但 该 组 合 方法 给 出 了 具有 最 好 性 能 的 产品 排序 。 


PR curve 





Average rate of positive predictions 


图 4-13 简单 贝 叶 斯 方法 、OR, 方法 和 AdaBoost. M1 方法 的 PRA (AM) 和 累积 回溯 精确 度 曲 线 (AR) 


AdaBoost. M1 算法 是 更 广泛 增强 类 算法 的 一 个 例子 ， 该 类 算法 应 用 较 差 学 习 算 法 〈 比 随机 猜 
测 稍 好 ) 的 组 合 来 获得 较 好 的 预测 性 能 。 这 类 算法 的 参考 资料 是 Freund 和 Shapire (1996) 的 论 
文 。 其 他 重要 的 增强 方法 的 历史 文献 是 Shapire (1990) 和 Freund (1990) 的 文章 。 有 些 重要 的 
分 析 可 以 在 Breiman (1998)、Friedman (2002) 和 Ratsch 等 (2001) 的 工作 中 找到 。 可 以 在 
Hastie 等 (2001) 的 书籍 的 第 10 章 找 到 有 关 增 强 方法 的 很 好 描述 。 

4.4.3 半 监 督 方 法 

本 节 描 述 尝试 同时 使 用 检验 的 和 没有 检验 的 报告 来 得 到 侦 测 欺诈 报告 的 分 类 模型 。 这 意味 
着 我 们 需要 某 种 形式 的 半 监 督 分 类 模型 (参见 4.3, 1.3 节 )。 

自我 训练 模型 〈 例如，Rosenberg (2005); Yarowsky (1995 ) ) 是 一 个 众所周知 的 半 监 叔 
分 类 形式 。 该 方法 先 用 给 定 标记 的 个 案 来 建立 一 个 初始 的 分 类 器 。 然 后 应 用 这 个 分 类 器 来 预测 
给 定 训练 集中 未 标记 的 个 案 。 将 分 类 器 中 有 和 较 高 置信 度 的 预测 标签 所 对 应 的 个 案 和 预测 的 标签 
一 起 加 入 到 有 标记 的 数据 集中 。 在 这 个 新 的 数据 集 上 我 们 得 到 一 个 新 的 分 类 器 ， 继 续 进 行 这 个 
过 程 ， 直 到 达到 某 个 收敛 准则 时 迭代 过 程 才 停止 。 只 要 能 输出 预测 的 置信 和 度 信 息 ， 那 么 任何 基本 
分 类 算法 都 可 运用 该 方法 。 这 与 4.4.3 节 描 述 的 两 个 分 类 器 的 类 概率 相似 。 自 我 训练 方法 有 三 个 
相关 的 参数 : 1) 基本 训练 模型 ; 2) 分 类 置信 度 阔 值 ， 它 用 来 确定 哪些 个 案 加 入 到 新 的 训练 集 
中 ; 3) 决定 何 时 终止 自我 训练 过 程 的 收敛 准则 。 在 本 书 的 R 添加 包 中 ， 有 一 个 泛 型 函数 
(SelfTrain( ) ) ， 它 可 以 用 于 概率 分 类 器 ， 基 于 同时 有 标记 个 案 和 未 标记 个 案 的 训练 集 来 训练 模型 。 

下 面 用 数据 集 inis 给 出 这 个 函数 的 一 个 简单 应 用 示例 。 我 们 在 该 数据 集中 人 工 创建 了 少数 未 
标记 的 样本 ， 这 样 就 能 应 用 半 监 督 的 分 类 方法 : 


> library (DMwR) 

> library (e1071) 

> data(Ciris) 

> idx <- sample(150, 100) 

> tr <- iris[idx, J 

> ts <- iris[-idx, J 

> nb <- naiveBayes(Species ~ ., tr) 
> table(predict(nb, ts), ts$Species) 


156， 数 据 控 拥 与 R 语言 


223 
l 


224 


setosa versicolor virginica 


setosa 12 0 0 
versicolor 0 21 1 
virginica 0 0 16 
> trST <- tr 
> nas <- sample(100, 90) 
> trSTInas, "Species"] <- NA 
> func <- function(m, d) { 
+ p <- predict(m, d, type = "raw") 
+ data. frame(cl = colnames(p) [apply(p, 1, which.max)], 
+ p = apply(p, 1, max)) 
+} 
> nbSTbase <- naiveBayes(Species ~ ., trST[-nas, ]) 
> table(predict (nbSTbase, ts), ts$Species) 


setosa versicolor virginica 


setosa 12 0 0 
versicolor 0 18 2 
virginica 0 3 15 


v 


nbST <- SelfTrain(Species ~ ., trST, learner("naiveBayes", 
list()), "func") 
table(predict(nbST, ts), ts$Species) 


v + 


setosa versicolor virginica 


setosa 12 0 0 
versicolor 0 20 2 
virginica 0 1 15 


上 面 的 代码 得 到 了 3 个 不 同 的 简单 贝 叶 斯 模型 。 第 一 个 模型 (nb) 用 一 个 有 100 个 标记 个 案 
的 样本 得 到 。 将 这 100 个 个 案 转换 为 另 一 个 集合 ， 其 中 的 90 个 个 案 的 目标 变量 被 设 为 NA， 于 是 
它们 变 为 未 标记 的 个 案 。 用 剩余 的 10 个 有 标记 的 个 案 得 到 第 二 个 简单 贝 叶 斯 模型 (nbSTbase) 。 
最 后 ， 把 有 标记 个 案 和 未 标记 个 案 混 合 后 的 数据 集 传 递 给 函数 SelfTrain( ) 从 而 得 到 第 三 个 模型 
(nbST) 。 从 上 面 可 以 看 到 ， 在 这 个 小 例子 中 ， 自 我 训练 的 模型 几乎 达到 了 与 用 100 个 标记 个 案 
得 到 的 初始 模型 一 样 的 性 能 。 

为 了 应 用 函数 SelfTrain( ) ， 用 户 必 须 创 建 一 个 函数 (上面 代码 中 是 func( ) ) ， 它 能 接收 一 个 
给 定 模型 与 测试 集 ， 并 返回 一 个 含有 两 列 并 与 测试 集 有 相同 行 数 的 数据 框 。 数 据 框 的 第 一 列 包 
含 个 案 的 预测 标记 ， 第 二 列 为 那个 分 类 的 相应 概率 。 该 函数 需要 在 函数 SelfTrain( ) 之 外 来 定义 ， 
因为 不 是 所 有 的 predict 方法 都 用 相同 的 语法 来 获得 类 概率 。 

函数 SelfTrain( ) 有 几 个 参数 来 控制 迭代 过 程 。 参 数 thrConf (默认 值 为 0.9) 设置 为 把 一 个 
未 标记 个 案 合并 到 有 标记 个 案 集 的 概率 阔 值 (默认 为 0.9) ， 参 数 malts 允许 用 户 设置 自我 训练 
和 迭代 的 最 大 次 数 (默认 为 10) ， 而 参数 percFull (默认 为 1) 用 来 指示 如 果 有 标记 集合 达到 了 某 
个 给 定数 据 集 的 一 定 百分比 就 停止 该 过 程 。 自 我 训练 和 迭代 过 程 达到 下 列 条 件 将 停止 : BARA 
分 类 达到 所 要 求 的 概率 水 平 ， 要 么 达到 了 最 大 迭代 次 数 ， 要 人 么 当前 有 标记 训练 集 达 到 了 给 定数 
据 集 的 目标 比例 。 最 后 要 注意 的 是 ， 函 数 SelfTrain( ) 要 求 在 目标 变量 上 用 NA 值 来 表示 未 标记 
的 个 案 。 我 们 采用 简单 贝 叶 斯 模型 来 应 用 这 种 自我 训练 。 下 面 的 代码 实现 和 运行 用 自我 训练 的 
贝 叶 斯 模型 来 进行 的 保留 (hold-out) 实验 。 这 里 要 警告 的 是 ， 有 关 运 行 该 实验 所 必需 的 计算 资 
源 。 取 决 于 计算 机 硬件 ， 运 行 的 下 面 的 代码 将 花费 较 长 的 时 间 ， 尽 管 是 以 分 钟 计 算 (至 少 在 我 
的 平均 水 平 的 计算 机 上 是 这 样 ) 。 


第 4 章 


> pred.nb <- function(m,d) { 
p <- predict (a,d,type='ravw') 
data. frame (cl=colnames (p) [apply (p, 1, which.max)], 
p=apply (p, 1,max) 
) 
} 
nb.st <- function(train,test) { 
require(e1071,quietly=T) 
train <- train[,c('ID','Proď','Uprice','Insp')] 
train[which(train$Insp == 'unkn'),'Insp'] <- NA 
train$Insp <- factor (train$Insp,levels=c('ok','fraud')) 
model <- SelfTrain(Insp ~ .,train, 
learner ('naiveBayes',list()),'pred.nb') 
preds <- predict (model,test[,c('ID','Prod','Uprice','Insp')], 
type='raw') 
return(list (rankOrder=order (preds[,'fraud'] ,decreasing=T) ， 
rankScore=preds[,'fraud']) 
) 
} 
ho.nb.st <- function(form, train, test, ...) { 
res <- nb.st(train, test) 
structure (eval0utlierRanking (test, res$rankOrder,...), 
. itInfo=list (preds=res$rankScore, 
trues=ifelse(test$Insp=='fraud' , 1,0) 
) 


t 


nb.st.res <- holdOut (learner ('ho.nb.st', 
pars=list (Threshold=0.1, 
statsProds=globalStats)), 
dataset (Insp ~ .,sales), 
hldSettings(3,0.3,1234,T), 
itsInfo=TRUE 
) 


运行 上 面 的 自我 训练 模型 的 结果 如 下 所 示 。 


> summary (nb.st.res) 


teehee eV FEF EEE VERE HE ee He eH Hee VE et + 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.nb.st with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.013621017 0.42513271 1.08220611 
std 0.001346477 0.03895915 1.59726790 
min 0.012077296 0.38666667 0.06717087 
max 0.014742629 0.46456693 2.92334375 
invalid 0.000000000 0.00000000 0.00000000 
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这 些 结果 很 令 人 失望 。 它 与 只 用 有 标记 数据 训练 的 简单 贝 叶 斯 的 结果 很 相似 。 除 了 NDTP 的 
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平均 值 有 些许 提高 外 ， 其 他 统计 量 基 本 相同 ， 它 比 我 们 目前 得 到 的 最 好 分 数 相 差 很 大 。 而 且 ， 就 
是 这 个 较 好 的 指标 还 伴随 一 个 很 大 的 标准 差 。 

图 4-14 给 出 了 这 个 模型 、 标 准 简单 贝 叶 斯 模型 和 OR, 模型 的 PR 曲线 以 及 累积 回溯 精确 度 
曲线 。 用 下 面 的 代码 来 绘制 该 图 形 : 


par (mfrow=c(1,2)) 
info <- attr(nb.st.res,'itsInfo') 
PTs.nb.st <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 
¢(1,3,2) 
) 
PReurve(PTs.nb[,,1],PTs.nb[,,2], 
main='PR curve',1ty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve (PTs.orh{,,1],PTs.orh[,,2], 
add=T, 1ty=1,col='grey', 
avg='vertical') 
PReurve (PTs.nb.st[,,1],PTs.nb.st[,,2], 
add=T, lty=2, 
avg='vertical') 
legend (‘topright',c('NaiveBayes','ORh','NaiveBayes-ST'), 
lty=c(1,1,2),col=c{'black' ,'grey','black')) 
CRehart (PTs.nb[,,1],PTs.nb[,,2], 
main='Cumulative Recall curve', lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRehart (PTs.orh[,,1],PTs.orh[, ,2], 
add=T, 1ty=1,col='grey', 
avg='vertical') 
CRehart (PTs.nb.st[,,1],PTs.nb.st[,,2], 
add=T, lty=2, 
avg='vertical') 
legend (‘bottomright' ,c('NaiveBayes' ,'ORh','NaiveBayes-ST'), 
Ity=c(1,1,2),col=c('black','grey','black')) 


图 4-14 确认 了 自我 训练 的 简单 贝 叶 斯 分 类 模型 令 人 失望 的 性 能 。 对 于 这 个 特定 问题 ， 即 使 
应 用 了 由 相对 较 小 的 数据 集 得 到 的 简单 贝 叶 斯 模型 ， 这 个 半 监 督 分 类 器 还 是 明显 没有 竞争 力 。 


PR curve Cumulative Recall curve 


v 


t+vVvttVvttzeteVttztvVvtvVvttvVvteteVttetvtetve 





Average recall Average rate of positive predictions 
图 4-14 自 训练 的 简单 贝 叶 斯 方法 、 标 准 简单 贝 叶 斯 方法 和 OR, 方法 的 PR 图 〈 左 图 ) 
和 累积 回 湖 精 确 度 曲 线 (AR) 
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我 们 也 用 AdaBoost. M1 算法 进行 了 自我 训练 。 下 面 的 代码 执行 这 些 实验 : 


> pred.ada <- function(m,d) { 
+ p <- predict (m,d,type='probability') 


+ data. frame(cl=colnames(p) [apply(p,1,which.max)], 

+ p=apply(p, 1,max) 

+ ) 

+} 

> ab.st <- function(train,test) { 

+ require(RWeka,quietly=T) 

+ train <- train[,c('ID','Prod','Uprice','Insp')] 

+ train{which(train$Insp == 'unkn'),'Insp'] <- NA 

+ tyrain$Insp <- factor (train$Insp, levels=c(‘ok','fraud')) 

+ model <- SelfTrain(Insp ~ .,train, 

+ learner ('‘AdaBoostM1', 

+ list (control=Weka_control (I=100))), 
+ ‘pred. ada') 

+ preds <- predict (model, test[,c('ID','Prod','Uprice','Insp')], 
+ type='probability') 

+ return(list (rankOrder=order (preds[,'fraud'],decreasing=T), 
+ rankScore=preds[,'fraud']) 

+ ) 

+} 

> ho.ab.st <- function(form, train, test, ...) { 

+ res <- ab.st(train, test) 

+ structure (evalOutlierRanking(test,res$rank0rder,...), 

+ itInfo=list (preds=res$rankScore, 

+ trues=ifelse (test$Insp=='fraud',1,0) 
+ ) 

+ 2 

+} 

> ab.st.res <- holdOut(learner(‘ho.ab.st', 

+ pars=list(Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset (Insp ~ .,sales), 

+ hidSettings (3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 


在 10% 的 检验 努力 下 ， 自 我 训练 的 AdaBoost 方法 的 结果 如 下 : 


> summary (ab.st.res) 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ab.st with parameters: 
Threshold = 0.1 
statsProds = 11.34 . 

* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.022377700 0.70365350 1.6552619 
std 0.001130846 0.02255686 1.5556444 
min 0.021322672 0.68266667 0.5070082 
max 0.023571548 0.72750643 3.4257016 
invalid 0.000000000 0.00000000 0.0000000 
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尽管 不 是 出 人 意料 地 好 ， 但 这 些 分 数 比 单独 用 有 标记 数据 得 到 的 AdaBoost. M1 模型 有 提高 。 
决策 精确 度 基本 上 一 样 ， 在 回溯 精确 度 和 平均 NDTP 上 有 小 的 提高 。 对 于 10% 的 努力 水 平 ， 这 里 
的 回溯 精确 度 是 我 们 尝试 的 所 有 模型 中 最 高 的 。 图 4-15 给 出 了 这 个 模型 、 标 准 Adaboost. M1 模 
型 和 OR, 模型 的 PR 曲线 以 及 累积 回溯 精确 度 曲线 。 用 下 面 的 代码 来 绘制 该 图 形 : 


> par(mfrow = c(i, 2)) 

> info <- attr(ab.st.res, "itsInfo") 

> PTs.ab.st <- aperm(array(unlist (info), dim = c(length(info[[1]]), 
+ 2, 3)), c(1, 3, 2)) 

> PReurve(PTs.ab[, , 1], PTs.ab[, , 2], main = "PR curve", 

+ lty = 1, xlim = c(0, 1), ylim = c(0, 1), avg = "vertical") 

> PReurve(PTs.orh[, , 1], PTs.orh[, , 2], add = T, lty = 1, 


+ col = "grey", avg = "vertical") 
> PReurve(PTs.ab.st[, , 1], PTs.ab.st[, , 2], add = T, lty = 2, 
+ avg = "vertical" 


> legend("topright", c("AdaBoostM1", "ORh", "AdaBoostM1-ST"), 

+ lty = c(i, 1, 2), col = c("black", "grey", "black")) 

> CRchart(PTs.ab[, , 1], PTs.ab[, , 2], main = "Cumulative Recall curve", 
+ lty = 1, xlim = c(0, 1), ylim = c(0, 1), avg = "vertical") 

> CRehart(PTs.orh[, , 1], PTs.orh{, , 2], add = T, lty = 1, 


+ col = "grey", avg = "vertical") 
> CRehart (PTs.ab.st[, , 1], PTs.ab.st[, , 2], add = T, lty = 2, 
+ avg = "vertical") 


> legend("bottomright", c("AdaBoostM1", "ORh", "AdaBoostM1-ST"), 

+ lty = c(i1, 1, 2), col = c("black", "grey", "black")) 

在 欺诈 侦 测 问题 所 尝试 的 所 有 模型 中 ， 累 积 回 淹 精 确 度 曲线 确认 了 自我 训练 的 AdaBoost. M1 
ayy) 模型 是 最 好 的 模型 。 特 别 是 ， 在 检验 限 值 水 平 在 15% ~20% 时 ， 就 俩 测 出 的 散 诈 报告 的 比例 而 
! | 言 ， 它 明显 地 好 于 其 他 的 模型 系统 。 就 决策 精确 度 而 言 ， 这 个 模型 的 分 数 不 是 太 吸引 人 ， 但 前 面 
229| 我 们 提 到 ， 那 些 被 模型 放 在 较 高 排序 位 置 的 未 标记 报告 最 终 被 确认 为 欺诈 也 不 是 一 件 坏事 。 


PR curve Cumulative Recall curve 





Average recall Rate of positive predictions 
Æ 4-15 自 训 练 的 AdaBoost. M1 方法 、OR, 方法 和 标准 的 AdaBoost. M1 方法 的 PR 图 (ABI) 
和 累积 回溯 精确 度 曲线 (CAE) 


4.5 小 结 


本 章 的 主要 目的 是 向 读者 介绍 一 类 新 的 数据 按 掘 问题 : 离 群 值 排序 。 特 别 是 我 们 采用 了 一 
个 从 不 同 的 方面 处 理 这 个 任务 的 数据 集 。 即 ， 我 们 对 该 问题 应 用 了 有 监督 的 、 无 监督 的 和 半 监 督 


第 4 章 侦 测 欺诈 交易 "161 


的 方法 。 对 于 应 用 有 限 的 资源 来 找到 一 个 现象 的 异常 观测 值 这 一 常见 问题 ， 本 章 的 应 用 可 以 看 
做 是 它 的 一 个 实例 。 多 个 实际 问题 可 以 映射 到 这 个 通用 框架 中 ， 例 如 信用 卡 、 电 信和 税收 的 欺诈 
侦 测 等 。 在 证 券 领域 ， 也 有 这 种 欺诈 侦 测 一 般 概 念 的 多 个 应 用 。 

用 方法 论 的 术语 来 讲 ， 我 们 介绍 了 下 面 的 新 主题 : 

。 离 群 值 侦 测 和 排序 。 

© 聚 类 方法 。 

。 半 监 督学 习 。 

e 通过 自我 训练 的 半 监 督 分 类 。 

e 失衡 的 类 分 布 以 及 处 理 这 类 问题 的 方法 。 230 

o 简单 贝 叶 斯 分 类 器 。 

e AdaBoost 分 类 器 。 

。 决策 精确 度 / 回 溯 精 确 度 和 累积 回溯 精确 度 。 

e 保留 (交叉 验证 ) 实验 。 

从 学 习 R 的 角度 来 讲 ， 我 们 演示 了 : 

© 如 何 获取 多 个 性 能 指标 统计 量 和 如 何 用 ROCR 添加 包 来 可 视 化 它们 。 

© 如 何 得 到 性 能 指标 统计 量 的 交叉 验证 估计 。 

e 如 何 用 LOF 方法 得 到 局 部 离 群 值 因子 。 

© 如 何 用 OR, 方法 得 到 离 群 值 排序 。 

© 如 何 用 SMOTE 方法 克服 类 失衡 。 

。 如 何 得 到 简单 贝 叶 斯 分 类 模型 。 

© 如 何 得 到 AdaBoost. M1 分 类 模型 。 

© 如 何 通 过 RWeka 添加 包 来 应 用 Weka 数据 挖掘 系统 的 方法 。 

© 如 何 用 自 训练 方法 把 一 个 分 类 器 应 用 到 半 监 督 的 数据 集 。 231 
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第 四 个 案例 是 来 自生 物 信 息 领 域 。 在 这 个 案例 中 ， 我们 重点 讲述 如 何 对 微 阵 列 样本 进行 分 
类 。 更 准确 地 说 ， 给 定 一 个 描述 病人 基因 表达 情况 的 微 阵 列表 ， 我 们 将 确定 这 个 病人 的 急性 淋巴 
细胞 白血病 的 基因 突变 类 型 。 这 个 案例 将 涉及 多 个 新 的 数据 挖 气 主题。 根据 这 类 数据 的 特点 ， 本 
章 重点 讲述 特征 选择 方法 ,也 就 是 如 何 降低 描述 每 个 观察 对 象 特征 的 个 数 。 在 这 个 特殊 的 应 用 
中 ,我 们 给 出 几 个 常用 的 特征 选择 方法 。 本 章 涉及 的 其 他 数据 挖掘 主题 包括 k 近邻 分 类 ， 弃 一 交 
叉 验 证 法 和 其 他 形式 的 组 合 模型 。 


5.1 问题 描述 与 目标 


生物 信息 学 是 R 的 主要 应 用 领域 之 一 。 有 一 个 基于 R 的 生物 信息 学 相关 项 目 ， 该 项 目的 目 
的 是 为 生物 信息 学 领域 提供 大 量 分 析 工 具 ， 该 项 目的 名 称 为 Bioconductor © 。 本 案例 将 使 用 这 个 
项 目 提供 的 工具 来 处 理 有 监督 的 分 类 问题 。 
5.1.1 微 阵列 实验 背景 简介 

一 个 没有 生物 背景 的 人 在 生物 信息 学 领域 中 磁 到 的 主要 问题 之 一 是 此 领域 中 大 量 的 “新 ” 
术语 。 在 这 个 简单 的 背景 介绍 中 ， 我 们 将 向 读者 介绍 生物 信息 学 领域 中 的 一 些 “术语 ”， 并 且 试 
着 把 它们 映射 到 更 “标准 ”的 数据 挖掘 术语 。 

分 析 差 异 基 因 表 达 是 DNA 微 阵列 实验 中 的 一 个 重要 应 用 之 一 。 基 因 表 达 微 阵列 可 以 让 我 们 

根据 样本 的 基因 表达 水 平 来 描述 这 些 样本 ( 即 个 体 ) 的 特征 。 在 生物 信息 学 领域 ， 一 个 样本 是 

指 某 些 研究 现象 的 一 个 观测 值 (或 者 个 案 ) 。 微 阵列 实验 是 用 来 测量 这 些 观测 值 的 “变量 ”集合 
的 方法 。 这 里 的 变量 是 指 大 量 基 因数 据 的 集合 ， 对 每 一 个 变量 (基因 ) ， 这 些 实验 都 会 测量 一 个 
相应 的 表达 水 平 。 总 之 ， 一 个 数据 集 是 由 一 组 样本 (MAR) 构成 ， 我 们 测量 这 些 样本 的 大 量 
基因 (BIER) 集合 的 表达 水 平 。 如 果 这 些 样品 有 一 些 与 其 相关 的 疾病 状态 ， 我 们 可 以 尝试 找 
到 一 个 未 知 函 数 ， 该 函数 可 以 把 基因 表达 水 平 映 射 到 疾病 状态 。 可 以 使 用 一 个 先前 分 析 过 的 样 
本 的 数据 集 来 近似 描述 这 个 函数 ， 这 是 一 个 有 监督 分 类 任务 的 一 个 实例 ， 其 中 目标 变量 是 疾病 
类 型 。 在 这 种 问题 中 ， 观 测 值 是 样品 〈 微 阵列 、 个 体 ) ， 预 测 变量 是 我 们 用 微 阵 列 实 验 来 测量 某 
fA 〈 即 表达 水 平 ) 的 基因 。 这 里 的 关键 假设 是 不 同 的 疾病 类 型 是 与 不 同 的 基因 表达 谱 特征 相关 
的 ， 而 且 通 过 微 阵列 来 测量 这 些 基因 表达 谱 ， 我 们 就 可 以 精确 地 预测 一 个 个 体 的 疾病 类 型 。 

为 了 获得 一 些 样本 的 基因 表达 水 平 ， 多 种 技术 手段 由 此 而 生 。 短 寡 核 苷 酸 芯 片 就 是 这 些 技 
术 的 一 个 例子 。 短 守 核 苷 酸 芯 片 的 输出 是 一 个 图 像 ， 经 过 几 个 预 处 理 步骤 后 ， 这 个 图 像 可 以 映射 
为 一 组 基因 表达 水 平 。 项 目 Bioconductor AJLA R 添加 包 就 是 实现 这 些 预 处 理 步 又 的 ， 它 包括 分 
析 短 寡 核 芋 酸 芯片 输出 的 图 像 、 标 准 化 任务 ， 以 及 其 他 几 个 得 到 基因 表达 水 平 的 必要 步骤 。 在 这 
个 案例 中 ， 我 们 不 介绍 这 些 初始 的 步骤 。 感 兴趣 的 读者 可 以 参考 Bioconductor 项 目的 几 个 信息 资 
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源 ， 也 可 以 参考 其 他 书籍 (例如 ，Hahne et al , 2008), 

在 这 种 情况 下 ， 我 们 将 直接 从 经 过 这 些 预 处 理 步 又 得 到 的 基因 表达 水 平和 矩阵 人 手 。 该 矩阵 
是 观测 值 的 预测 变量 信息 。 我 们 将 会 看 到 ， 通 常会 有 比 样本 量 更 多 的 预测 变量 被 测量 ， 也 就 是 说 
预测 变量 的 个 数 多 于 观测 值 的 个 数 。 这 是 典型 的 微 阵 列 数 据 集 的 特点 。 这 些 基 因 表 达 和 矩阵 的 另 
一 个 特别 之 处 是 ， 与 标准 的 数据 集 相 比 较 ， 它 们 看 起 来 是 经 过 转 置 的 。 这 意味 着 矩阵 的 行 代表 预 
测 变量 ( 即 基因 )， 和 矩阵 的 列 代表 观测 值 ( 即 样本 )。 对 于 每 一 个 样本 ,我 们 也 需要 它 的 相关 分 
类 。 在 本 章 的 案例 中 ， 该 分 类 是 一 种 遗传 变异 相关 疾病 。 这 里 也 可 能 存在 其 他 的 变量 信息 A 
如 ， 抽 样 个 体 的 性 别 和 年 龄 等 ) 。 
5. 1.2 数据 集 ALL 

本 章 所 使 用 的 数据 集 来 自 关 于 急性 淋巴 细胞 白血病 的 一 个 研究 〈Chiaretti et al. , 2004; Li, 
2009) 。 这 些 数据 是 从 患 这 类 疾病 的 128 位 个 体 上 得 到 的 微 阵列 样本 。 事 实 上 ， 在 这 些 样本 中 有 
两 种 不 同类 型 的 肿瘤 : T 细 胞 ALL ( 共 33 例 样本 ) A B 细胞 ALL (495 例 样本 ) 。 

我 们 将 集中 研究 B 细胞 ALL 样本 数据 。 在 这 后 一 组 样品 中 ， 我 们 能 区 分 出 不 同类 型 的 突变 ， 
即 ALL1/AF4、BCR/ABL、E2A/PBX1、pl15/p16 和 没有 细胞 遗传 学 异常 。 在 对 B 细胞 ALL 样本 
的 分 析 中 ， 由 于 只 有 一 个 样本 的 突变 类 型 为 p15/p16， 所 以 所 有 分 析 中 将 剔除 该 观测 值 。 我 们 建 
模 的 目标 是 根据 它 的 微 阵列 能 够 预测 出 个 体 的 突变 类 型 。 考 虑 到 目标 变量 是 有 4 个 可 能 取 值 的 名 
义 变量 ， 因 此 我 们 面临 的 是 一 个 有 监督 的 分 类 任务 。 


5.2 可 用 的 数据 


数据 集 ALL 是 生物 信息 学 软件 包 (Bioconduetor) 的 一 部 分 。 为 了 使 用 该 数据 集 ， 我 们 至 少 
需要 从 Bioconductor 网 站 安装 一 些 基 本 的 添加 包 。 由 于 这 个 数据 集 已 经 是 R 添加 包 的 一 部 分 ， 所 
以 这 里 没有 把 这 个 数据 集 包含 在 本 书 的 添加 包 中 。 

为 了 安装 基本 的 生物 信息 学 软件 包 和 数据 集 ALL， 假 设 我 们 已 经 正常 连接 到 了 互联 网 ， 需 要 
执行 下 列 指 令 : 

> source("http://bioconductor.org/biocLite.R") 

> biocLite() 

> biocLite ("ALL") 

只 需要 在 第 一 次 使 用 时 运行 上 面 的 代码 。 当 把 这 些 添加 包 安 装 好 后 ， 只 要 简单 地 运行 下 列 
代码 就 可 以 应 用 数据 集 ALL T: 


> library (Biobase) 
> library (ALL) 
> data(ALL) 


上 面 的 指令 会 载 人 添加 包 Biobase (Gentleman et al. , 2004) 和 添加 包 ALL (Gentleman et 
al ，2010) 。 然 后 ， 我 们 载 人 数据 集 ALL， 这 将 创建 一 个 由 Bioconductor 定义 的 特殊 类 
(ExpressionSet) 对 象 。 这 个 类 对 象 含有 微 阵 列 数据 集 的 大 量 信息 。 有 多 个 相关 的 方法 来 处 理 这 
种 类 型 的 对 象 。 如 果 需 要 R 给 出 ALL 对 象 的 内 容 ， 可 以 得 到 以 下 信息 : 


> ALL 
ExpressionSet (storageMode: lockedEnvironment) 
assayData: 12625 features, 128 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LAL4 (128 total) 
varLabels and varMetadata description: 
cod: Patient ID 
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diagnosis: Date of diagnosis 


date last seen: date patient was last seen 
(21 total) 
featureData 
featureNames: 1000_at, 1001_at, ..., AFFX-YELO24w/RIPi_at (12625 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 


上 面 输出 的 ALL 对 象 信息 分 为 几 个 组 。 首 先是 含有 基因 表达 水 平 矩 阵 的 测量 数据 ， 该 数据 
包含 128 个 样本 12 625 个 基因 。ALL 对 象 也 含有 大 量 的 实验 样本 的 元 数据 。 这 包括 phenoData 部 
分 的 样本 名 称 和 几 个 相关 的 协 变量 的 信息 。 它 也 包括 特征 〈 即 基因 ) 信息 以 及 生物 医学 数据 库 
中 有 关 基 因 的 注释 。 最 后 ， 该 对 象 也 包含 实验 的 描述 信息 。 

有 多 种 方法 可 以 用 来 方便 地 访问 对 象 ExpressionSet 中 的 信息 。 下 面 给 出 几 个 例子 。 我 们 从 获 
取 与 每 一 个 样本 相关 联 的 协 变量 的 信息 人 手 ， 代 码 如 下 : 


> pD <- phenoData(ALL) 
> varMetadata (pD) 


labelDescription 
cod Patient ID 
diagnosis Date of diagnosis 
sex Gender of the patient 
age Age of the patient at entry 
BT does the patient have B-cell or T-cell ALL 
remission Complete remission(CR), refractory(REF) or NA. Derived from CR 
CR Original remisson data 
date.cr Date complete remission if achieved 
(4311) did the patient have t(4;11) translocation. Derived from citog 
t(9;22) did the patient have t(9;22) translocation. Derived from citog 
cyto.normal Was cytogenetic test normal? Derived from citog 
citog original citogenetics data, deletions or t(4;11), t(9;22) status 
mol.biol ' molecular biology 
fusion protein which of p190, p210 or p190/210 for bcr/able 
mdr multi-drug resistant 
kinet ploidy: either diploid or hyperd. 
ccr Continuous complete remission? Derived from f.u 
relapse Relapse? Derived from f.u 
transplant did the patient receive a bone marrow transplant? Derived from f.u 
f.u follow up data available 
date last seen date patient was last seen 


> table(ALL$BT) 


B Bi B2 B3 B4 T Ti T2 T3 T4 
5 19 36 23 12 5 11510 2 


> table(ALL$mol.biol) 


ALL1/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 pi5/pi6 
10 37 5 74 1 1 


> table (ALL$BT, ALL$mol.bio) 


ALL1/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 p15/p16 
B 0 2 1 2 0 0 
B1 10 1 0 8 0 0 
B2 0 19 0 16 0 1 
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B3 0 8 1 14 0 0 
B4 0 7 3 2 0 0 
T 0 0 0 5 0 0 
T1 0 o 0 1 0 0 
T2 0 0 0 15 0 0 
T3 0 0 o 9 1 0 
T4 0 0 0 2 0 0 


前 两 个 指令 用 来 获取 已 有 的 协 变量 的 名 称 和 描述 。 接 着 ， 我 们 得 到 样本 在 两 个 主要 协 变量 
上 分 布 的 信息 。 这 两 个 协 变量 是 : 变量 BT， 它 决定 急性 淋巴 细胞 性 白血病 的 类 型 ; 变量 
mol. bio ， 描 述 在 每 个 样本 上 发 现 的 细胞 遗传 学 异常 (NEC 代表 没有 任何 异常 ) 。 

我 们 也 可 以 得 到 一 些 关 于 基因 和 样本 的 信息 : 

> featureNames (ALL) [1:10] 


[1] "1000_at" "1001_at" "1002_f_at" "1003_s_at" "1004_at" 
[6] "1005_at" "1006_at" "1007_s_at" "1008_f_at" "1009_at" 


> sampleNames (ALL) [1:5] 
[1] "01005" "01010" "03002" "04006" "04007" 


这 段 代码 给 出 了 开始 10 个 基因 的 名 称 以 及 开始 5 个 样本 的 名 称 。 
前 面 提 到 过 ， 我 们 将 专注 于 分 析 B 细胞 ALL 个 案 数 据 ， 特 别 是 有 基因 突变 的 那个 样本 子 集 ， 


基因 突变 是 我 们 分 析 的 目标 类 。 我 们 将 用 下 面 的 代码 获得 我 们 将 要 应 用 的 数据 子 集 : 235 
> tgt.cases <- which(ALL$BT %in% levels(ALL$BT) [1:5] & 
+ ALL$mol.bio Xin% levels(ALL$mol. bio) [1:4]) 237 
> ALLb <- ALL[, tgt.cases] 
> ALLb 


ExpressionSet (storageMode: lockedEnvironment) 
assayData: 12625 features, 94 samples 
element names: exprs 
phenoData ; 
sampleNames: 01005, 01010, ..., LAL5 (94 total) 
varLabels and varMetadata description: 
cod: Patient ID 
diagnosis: Date of diagnosis 
date last seen: date patient was last seen 
(21 total) 
featureData 
featureNames: 1000_at, 1001_at, ..., AFFX-YELO24w/RIPi_at (12625 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use ‘experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 


第 一 条 指令 用 于 获得 我 们 将 考虑 的 个 案 的 集合 。 这 些 个 案 是 变量 BT 和 变量 mol bio 取 特 定 
值 的 样本 。 前 面 介绍 过 函数 table( ) ， 这 里 调用 该 函数 来 显示 选择 了 哪些 样本 。 我 们 取 原 始 ALL 
对 象 的 子 集 ， 得 到 94 个 样本 用 于 我 们 的 案例 研究 。 这 个 样本 子 集 只 包含 变量 BT 和 变量 mol. bio 
的 一 部 分 取 值 。 因 此 ， 我 们 需要 更 新 这 两 个 因子 变量 的 可 用 水 平 ， 并 存储 为 一 个 新 的 ALLb 对 
象 ， 代 码 如 下 : 


> ALLD$BT <- factor(ALLb$BT) 
> ALLb$mol.bio <- factor (ALLb$mol.bio) 
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ALLb 对 象 将 是 本 章 所 使 用 的 数据 集 。 最 好 把 这 个 对 象 保存 为 计算 机 中 的 一 个 本 地 文件 ， 这 
样 当 你 需要 从 头 开始 分 析 时 ， 你 就 不 需要 重复 这 些 预 处 理 步骤 : 
> save(ALLb, file = "myALL.Rdata") 


探索 数据 库 
函数 exprs( ) 可 以 访问 基因 表达 水 平 矩 阵 : 
> es <- exprs(ALLb) 
> dim(es) 
[1] 12625 94 


238 该 数据 集 矩 阵 有 12 625 行 (基因 /特征 ) 94 5 〈 样 本/ 个案) 。 
就 维 数 而 言 ， 这 里 最 重要 的 挑战 是 ， 对 于 可 以 获得 的 个 案 (94) 有 太 多 的 变量 (12 625), 
对 于 这 种 大 维度 数据 ， 大 多 数 的 建 模 技 术 将 很 难 获得 有 意义 的 结果 。 在 这 种 情形 下 ， 我 们 的 第 一 
个 目标 是 降低 变量 的 数量 ， 即 从 我 们 的 分 析 中 剔除 掉 某 些 基因 。 为 此 ， 下 面 从 探索 表达 水 平 数据 
MF 
下 面 指令 的 结果 告诉 我 们 ， 大 多 数 基因 表达 水 平 的 值 是 在 4 ~7 之 间 : 
> summary (as.vector (es)) 


Min. ist Qu. Median Mean 3rd Qu. Max. 
1.985 4.122 5.469 5.624 6.829 14.040 


图 形 方式 可 以 更 好 地 描述 表达 水 平 的 分 布 。 我 们 用 添加 包 genefilter (Gentleman et al. , 
2010) 的 一 个 函数 来 绘制 数据 。 在 应 用 该 添加 包 之 前 ， 必 须 先 安装 它 。 注 意 ， 这 是 一 个 
bioconductor 添加 包 ， 它 们 不 是 从 标准 R 添加 包 存 储 库 中 安装 。 最 简单 的 安装 生物 信息 学 添加 包 
的 方法 是 通过 该 项 目 提供 的 专用 于 安装 添加 包 的 脚本 来 完成 : 


> source ("http://bioconductor.org/biocLite.R") 
> biocLite("genefilter") 


第 一 条 指令 加 载 安装 脚本 ， 第 二 个 指令 用 它 来 下 载 和 安装 添加 包 。 现 在 可 以 进行 上 述 绘图 
工作 ， 用 图 形 化 方式 来 显示 表达 水 平 的 分 布 。 


> library (genefilter) 
> hist (as. vector (es) , breaks=80, prob=T, 


+ xlab='Expression Levels', 

+ main='Histogram of Overall Expression Levels') 
> abline(v=c (median(as.vector(es)), 

+ shorth(as.vector(es)), 

+ quantile(as.vector(es),c(0.25,0.75))), 
+ lty=2,col=c(2,3,4,4)) 

> legend ('topright' ,c('Median!' ,'Shorth' ,'1stQ' ,'3rdQ'), 

+ lty=2,col=c(2,3,4,4)) 


结果 如 图 5-1 所 示 。 考 虑 到 我 们 的 数据 中 有 大 量 的 基因 表达 水 平 ， 因 此 这 里 改变 了 直方 图 函 
数 hist( ) 的 默认 区 间 数 ， 设 置 参数 breaks 的 值 为 80， 这 样 就 有 可 能 得 到 分 布 很 详细 的 有 逼近。 在 
直方 图 上 ， 我 们 绘制 了 几 条 竖 线 来 显示 中 位 数 、 第 一 个 四 分 位 数 、 第 三 个 四 分 位 数 和 SHORTH。 
统计 量 SHORTH 是 连续 型 分 布 的 中 心 趋势 的 稳健 估计 ， 由 添加 包 genefilter 中 的 函数 shorth( ) 实 
现 。 该 统计 量 是 包含 50% 观测 值 的 中 心 区 间 〈 即 四 分 位 距 ) 观测 值 的 均值 。 
基因 变异 样本 的 基因 表达 水 平分 布 是 否 和 其 他 样本 的 分 布 不 同 呢 ?下 面 的 代码 回答 了 这 个 
问题 。 
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> sapply(levels(ALLb$mol.bio), function(x) summary(as.vector(es[, 
+ which (ALLb$mol.bio == x)]))) 


ALL1/AF4 BCR/ABL E2A/PBX1 NEG 
Min. 2.266 2.195 2.268 1.985 
ist Qu. 4.141 4.124 4.152 4.111 
Median 5.454 5.468 5.497 5.470 


Mean 5.621 5.627 5.630 5.622 
3rd Qu. 6.805 6.833 6.819 6.832 
Max. 14.030 14.040 13.810 13.950 
正如 我 们 所 看 到 的 ， 这 些 样本 的 子 集 很 相似 ， 并 且 它 们 表达 水 平 的 全 局 分 布 也 相似 。 240 
Histogram of Overal Expression Levels 
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图 $-1 基因 表达 水 平 的 分 布 


5.3 基因 (特征 ) 选择 


在 许多 数据 挖掘 问题 中 ， 特 征 选择 是 一 项 重要 的 任务 。 一 般 的 问题 是 选择 数据 挖掘 问题 的 
特征 (或 者 变量 ) 子 集 ， 这 个 子 集 与 所 分 析 的 问题 有 更 高 的 相关 性 。 可 以 把 特征 选择 认为 是 之 
后 建 模 阶段 决定 变量 的 权重 〈 即 重要 性 ) 这 一 通用 问题 的 一 个 实例 。 一 般 而 言 ， 有 两 种 类 型 的 
特征 选择 方法 : 1) 过 滤 方 法 ; 2) 封装 方法 。 在 3. 3. 2 节 提 到 ， 过 滤 方 法 应 用 变量 的 统计 特征 来 
选择 最 终 的 特征 集合 ; 而 封装 方法 则 一 般 在 变量 选择 过 程 中 要 包括 数据 挖掘 模型。 过滤 方法 在 
一 个 单一 步骤 中 完成 ， 而 封装 方法 则 需要 一 个 搜索 过 程 ， 我 们 用 迭代 方式 找到 最 适合 应 用 的 数 
据 挖 据 模 型 的 变量 子 集 。 特 征 封 装 方法 明显 地 需要 更 多 的 计算 资源 ， 它 需要 多 次 运行 整个 “过 
滤 + 模型 + 评估 ”周期 ， 直 到 满足 某 些 收 敛 准 则 。 这 意味 着 ， 对 于 大 型 的 数据 挖掘 问题 ， 如 果 
时 间 要 求 很 高 ， 那 么 封装 方法 将 不 适用 。 然 而 ， 也 许 会 找到 理论 上 可 行 的 封装 方法 ， 它 适用 于 所 
应 用 模型 的 变量 集合 。 在 本 节 中 ， 我 们 将 描述 和 应 用 过 滤 方 法 。 

5.3.1 ”基于 分 布 特征 的 简单 过 滤 方 法 

我 们 给 出 的 第 一 个 基因 过 滤 方 法 是 基于 基因 表达 水 平分 布 所 给 出 的 信息 。 这 种 类 型 的 实验 
数据 通常 包含 有 多 个 根本 不 被 表达 的 基因 或 者 变动 性 极 小 的 基因 。 第 二 个 特征 意味 着 这 些 基 因 
不 能 用 来 对 样本 进行 区 分 。 而 且 这 种 类 型 的 微 阵列 通常 有 多 个 对 照 探 针 ， 它 们 可 以 很 容易 地 被 
日 除 。 在 我 们 的 案例 中 ， 应 用 的 微 阵列 为 Affymetric U95Av2 ， 这 些 探 针 以 字母 “AFFX” 开 头 。 


168 + 数据 挖 握 与 R 语言 


我 们 可 以 通过 下 面 的 图 形 来 得 到 每 个 基因 在 所 有 样本 上 的 总 体 分 布 情况 。 我 们 用 中 位 数 和 
四 分 位 距 (IQR) 来 代表 基因 的 这 些 分 布 。 下 面 的 代码 用 来 得 到 每 个 基因 的 这 些 统计 量 值 并 绘制 
它们 的 散 点 图 ， 如 图 5-2 所 示 。 


> rowIQRs <- function(em) 
+ rowQ(em, ceiling(0.75*ncol(em))) - rowl)(em,floor(0.25#ncol (em) )) 
> plot (rowMedians (es) , rowIQRs(es), 


+ xlab='Median expression level’, 
+ ylab='IQR expression level’, 
+ main='Main Characteristics of Genes Expression Levels') 


241 R 添加 包 Biobase 中 的 函数 rowMedians() 用 来 得 到 和 矩阵 每 行 向 量 的 中 位 数 。 这 种 方式 获取 中 
位 数 是 很 有 效 的 。 另 一 种 方法 是 应 用 函数 apply( ) ， 它 没有 这 里 的 方法 有 效 ”。 函 数 rowQ( ) 是 
添加 包 Biobase 提供 的 另 一 个 高 效率 的 函数 ， 它 用 来 得 到 矩阵 每 行 向 量 分 布 的 四 分 位 数 ， 该 函数 
的 第 二 个 参数 是 一 个 取 值 在 1 到 矩阵 列 数 之 间 的 整数 (1 代表 最 小 值 ， 其 他 值 代表 给 出 最 大 值 ) 。 
这 里 ,我 们 应 用 函数 rowQ( ) 的 第 3 个 四 分 位 数 减 去 第 1 个 四 分 位 数 ， 从 而 得 到 四 分 位 距 
(IQR) 。 这 些 统计 量 分 别 对 应 于 75% ~25% 的 数据 ?>。 在 上 面 的 代码 中 ， 我 们 应 用 函数 floor( ) 
和 函数 ceiling( ) 得 到 矩阵 每 一 行 数值 的 相应 四 分 位 数 的 位 置 。 这 两 个 函数 采用 不 同 的 舍 人 方法 
来 获取 一 个 浮 点 数 的 整数 部 分 。 读 者 可 以 试验 这 两 个 函数 ， 理 解 它 们 的 不 同 之 处 。 我 们 应 用 函数 
rowQ() 创建 了 函数 rowIQRs( ) ， 从 而 可 以 获取 每 行 的 四 分 位 距 〈IQR) 。 


Main Characteristics of Gene Expression Leveis 








IQR expression level 














Median expression level 


图 5-2 基因 表达 水 平 的 中 位 数 和 四 分 位 距 


图 5-2 给 出 了 有 趣 的 信息 。 从 图 5-2 中 可 知 ， 很 大 比例 的 基因 的 变动 性 很 小 〈IQR 接近 0)。 

前 面 提 到 ， 如 果 一 个 基因 在 所 有 样本 上 的 变动 性 很 小 ， 我 们 就 有 很 好 地 理由 认为 它 不 能 很 好 地 

起 到 区 分 不 同类 型 的 B 细胞 ALL 变异 的 作用 。 这 就 意味 着 我 们 可 以 安全 地 把 这 些 基 因 从 我 们 的 

分 类 任务 中 剔除 。 我 们 需要 注意 的 是 ， 这 里 的 推理 有 一 个 缺陷 。 事 实 上 ， 这 里 是 从 单个 基因 来 观 
察 的 。 因 此 上 述 推理 的 风险 在 于 ， 如 果 我 们 把 某 些 在 所 有 样本 上 有 很 小 变化 的 基因 和 其 他 基因 

放 到 一 起 ， 那 么 它们 有 可 能 对 分 类 任务 起 作用 。 然 而 ， 对 于 这 样 高 维度 的 数据 集 ， 探 索 基 因 之 间 

的 相互 作用 是 很 困难 的 。 因 此 ， 我 们 这 里 单独 考虑 每 个 基因 的 方法 仍然 是 处 理 这 类 问题 最 常见 


O 作为 一 个 练习 ， 读 者 可 以 对 这 两 个 函数 应 用 system. time( ) 函数 ， 观 察 它们 在 运行 效率 上 的 区 别 。 
O 在 所 有 的 数据 中 ，75% 的 数据 点 小 于 第 3 个 四 分 位 数 相应 的 点 ，25% 的 数据 点 小 于 第 1 个 四 分 位 数 相 应 的 
点 。 一 一 译 者 注 
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的 方法 。 不 过 ， 也 有 其 他 方法 在 考虑 基因 之 间 相 互 依赖 的 基础 上 来 估计 特征 的 重要 性 。 例 如 ， 
RELIEF 方法 (Kira and Rendel, 1992; Kononenko et al. , 1997) 。 

我 们 这 里 用 尝试 的 四 分 位 距 (IQR) 界限 值 来 剔除 那些 变动 性 很 小 的 基因 。 即 ， 我 们 将 剔除 
变动 性 小 于 总 体 IQR 1/5 的 所 有 基因 。 添 加 包 genefilter 中 的 函数 nsFilter( ) 可 以 用 于 这 种 过 滤 任 
务 。 代 码 如 下 : 


> library (genefilter) 
> ALLb <- nsFilter(ALLb, 


+ var.func=IQR, 

+ var. cutoff=IQR(as.vector(es))/§, 
+ feature.exclude="“AFFX") 

> ALLb 

$eset 


ExpressionSet (storageMode: lockedEnvironment) 
assayData: 4035 features, 94 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LALS (94 total) 
varLabels and varMetadata description: 
cod: Patient ID 
diagnosis: Date of diagnosis 
mol.bio: molecular biology 
(22 total) 
featureData 
featureNames: 41654_at, 35430_at, ..., 34371_at (4035 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use ‘experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 


$filter.log 
$filter.log$numLowVar 
[1] 4764 


$filter.log$nunDupsRemoved 
[1] 2918 


$filter.log$feature. exclude 
[1] 19 


$filter.log$numRemoved .ENTREZID 

[1] 889 

从 结果 中 可 知 ， 过 滤 后 的 基因 从 原来 的 12 625 EAR F A 4035 个 。 这 是 相当 显著 的 减少 。 
考虑 到 我 们 只 有 94 个 观测 值 ， 因 此 对 于 我 们 的 分 类 任务 来 说 ， 过 滤 后 的 基因 个 数 仍然 太 大 。 

函数 nsFilter( ) 的 结果 是 一 个 含有 多 个 元 素 的 列表 。 其 中 的 多 个 元 素 包 含 被 剔除 基因 的 信 
息 ， 而 且 元 素 eset 含有 选 出 的 基因 对 象 。 有 了 过 滤 的 结果 之 后 ， 我 们 可 以 用 选 出 的 对 象 来 更 新 
ALLb 对 象 和 es 对 象 ， 代 码 如 下 : 


> ALLb <- ALLb$eset 
> es <- exprs(ALLb) 
> dim(es) 


[1] 4035 94 
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5.3.2 ANOVA 过 滤 

如 果 一 个 基因 表达 水 平 的 分 布 在 目标 变量 的 所 有 可 能 值 上 类 似 ， 则 可 以 确定 这 个 基因 无 助 
于 区 分 这 些 目标 变量 值 。 我 们 的 下 一 个 方法 就 是 基于 这 点 。 我 们 将 比较 同一 类 B 细胞 ALL 突变 
样本 所 在 数据 子 集 的 基因 表达 水 平 的 均值 ， 即 在 同一 目标 变量 值 条 件 下 的 基因 均值 。 如 果 统 计 
上 有 很 大 信心 认为 一 个 基因 的 表达 水 平均 值 在 属于 每 一 类 突变 的 样本 组 上 没有 显著 区 别 ， 那 么 
这 些 基因 可 以 被 排除 在 进一步 分 析 之 外 。 

可 以 用 因子 分 析 (ANOVA) 来 比较 多 于 两 个 的 组 的 均值 。 在 我 们 的 案例 研究 中 ， 我 们 有 4 
组 案例 ， 每 一 组 相应 于 一 个 类 型 的 B 细胞 ALL 基因 突变 。 借 助 于 R 的 添加 包 genefilter， 可 以 在 R 
中 很 容易 地 进行 这 种 基于 ANOVA 的 过 滤 。 这 种 类 型 过 滤 的 代码 如 下 : 

> f <- Anova(ALLb$mol.bio, p = 0.01) 


> ff <- filterfun(f) 
> selGenes <- genefilter(exprs(ALLb), ff) 


> sum(selGenes) 
[1] 752 


> ALLb <- ALLb[selGenes, ] 
> ALLb 
ExpressionSet (storageMode: lockedEnvironment) 
assayData: 752 features, 94 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LAL5 (94 total) 
varLabels and varMetadata description: 
cod: Patient ID 
diagnosis: Date of diagnosis 


sess oe. 


mol.bio: molecular biology 
(22 total) 
featureData 
featureNames: 266_s_at, 33047_at, ..., 40698_at (752 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 


函数 Anova() 创建 了 一 个 新 的 函数 来 执行 ANOVA (方差 分 析 ) 过 滤 ， 它 需要 一 个 因子 来 给 
出 数据 集 的 组 别 和 一 个 统计 显著 性 水 平 。 该 函数 的 结果 保存 在 变量 f 中。 函数 filterfun( ) 的 原理 
类 似 ， 它 给 出 一 个 用 于 表达 矩阵 的 过 滤 函 数 。 它 应 用 函数 genefilter( ) 产生 一 个 向 量 ， 向 量 的 元 
素 为 逻辑 值 ， 向 量 中 元 素 的 个 数 和 给 定 的 表达 矩阵 中 基因 的 个 数 相同 。 按 照 ANOVA 统计 检验 ， 
如 果 向 量 的 值 为 TRUE ， 则 认为 相应 的 基因 是 有 用 的 。 从 结果 可 知 ， 只 有 752 个 有 用 基因 。 最 后 ， 
可 以 用 这 个 向 量 来 对 ExpressionSet 对 象 进行 过 滤 。 图 5-3 给 出 了 ANOVA 检验 所 选 出 的 基因 的 中 
位 数 和 四 分 位 距 。 下 面 的 代码 用 于 绘制 图 5-3: 


> es <- exprs(ALLb) 
> plot (rowMedians (es) , rowIQRs(es), 


+ xlab='Median expression level’, 
+ ylab='IQR expression level’, 
+ main='Distribution Properties of the Selected Genes') 


从 图 5-3 可 知 ， 用 中 位 数 和 四 分 位 距 来 衡量 的 基因 的 变化 性 提供 了 证 据 ， 表 明 这 些 基 因 表达 
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的 取 值 的 标 度 很 不 相同 。 如 果 描 述 记 录 的 一 组 变量 的 标 度 不 同 ， 许 多 建 模 技巧 将 会 导致 问题 。 也 
就 是 说 ， 那 些 依赖 于 记录 之 间距 离 的 建 模 方法 将 会 有 问题 ， 因 为 距离 函数 一 般 是 变量 之 间 差 值 
的 总 和 。 因 此 ， 如 果 变 量 的 标 度 相差 很 大 ， 那 么 具有 较 大 均值 的 变量 将 对 样本 间 的 距离 有 较 大 的 
影响 。 为 了 避免 这 个 问题 ， 一 般 要 对 数据 进行 标准 化 ， 即 减 去 变量 的 典型 取 值 ， 然 后 除 以 变量 的 
一 个 变动 性 指标 。 考 虑 到 不 是 所 有 的 建 模 技术 都 会 受到 变量 不 同 标 度 的 影响 ， 因 此 我 们 把 变量 
的 标准 化 问题 放 到 建 模 阶 段 ， 这 样 是 否 进行 标准 化 将 依赖 于 所 应 用 的 工具 。 


Distribution Properties of the Selected Genes 





IQR expression level 











Median expression level 
图 5-3 最终 的 基因 集合 的 中 位 数 和 四 分 位 距 的 散 点 图 


5. 3.3 用 随机 森林 进行 过 滤 

尽管 从 ANOVA 过 滤 得 到 的 表达 水 平 矩阵 的 变量 个 数 还 是 多 于 观测 值 的 个 数 ， 但 这 已 经 在 可 
以 建 模 的 范围 之 内 。 实 际 上 ， 我 们 在 5. 4 节 就 应 用 这 个 矩阵 进行 建 模 。 然 而 ， 有 人 可 能 要 问 ， 是 
否 有 更 好 的 方法 ， 从 而 得 到 具有 更 “标准 ” 维 数 的 数据 集 。 事 实 上 ， 我 们 可 以 尝试 进一步 减少 
特征 的 个 数 ， 然 后 比较 用 不 同 的 数据 集 得 到 的 结果 。 

可 以 用 随机 森林 得 到 变量 对 分 类 任务 有 用 程度 的 排序 。 在 3. 3. 2 节 的 预测 问题 中 ， 我 们 用 随 
机 森林 得 到 了 变量 对 预测 任务 重要 性 的 排序 。 


1 


在 演示 随机 森林 方法 之 前 ， 先 更 改 基因 的 名 称 。 现 在 基因 的 名 称 不 是 许多 建 模 技术 所 应 用 |243 


的 数据 框 所 期 望 的 标准 名 称 。 可 以 应 用 函数 make. names( ) 来 “解决 ”这 个 问题 ， 代 码 如 下 : 
> featureNames(ALLb) <- make .names(featureNames (ALLb)) 
> es <- exprs(ALLb) 
函数 featureNames( ) 用 来 获取 ExpressionSet 对 象 中 基因 的 名 称 。 
应 用 下 面 的 代码 ， 使 用 随机 森林 来 获取 基因 的 排序 : 


> library (randomForest) 

> dt <- data.frame(t(es), Mut = ALLb$mol.bio) 

> rf <- randomForest (Mut ~ ., dt, importance = T) 

> imp <- importance(rf) 

> imp <- imp[, ncol(imp) - 1] 

> rf.genes <~ names(imp)[order(imp, decreasing = T)[1:30]] 


我 们 把 基因 突变 信息 加 入 到 表达 和 矩阵 的 转 置 矩阵 中 ， 从 而 构造 出 训练 集 数据 。 然 后 调用 随 


O ”注意 表达 和 矩阵 的 行 代表 基因 (MER). 
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机 森林 函数 ， 把 参数 importance 设 为 TRUE， 这 样 就 得 到 了 变量 重要 性 的 估计 值 。 消 数 importance( ) 
用 来 得 到 每 个 变量 和 目标 变量 的 相关 程度 ， 按 照 不 同 的 准则 ， 它 在 不 同 的 列 返回 每 一 个 分 类 值 
的 分 数 。 其 中 一 个 列 用 来 衡量 当 每 个 变量 被 依次 剔除 后 ， 分 类 精确 度 平均 减少 的 估计 值 ， 选 择 该 


列 作为 变量 的 重要 性 分 值 。 最 后 ， 选 择 出 现在 变量 重要 性 分 值 前 30 的 基因 。 


我 们 可 能 想 知道 这 30 个 基因 的 表达 水 平 在 所 有 不 同 突变 类 型 上 的 分 布 情况 。 可 以 用 下 面 的 


代码 获得 这 30 个 基因 的 中 位 数 水 平 : 
> sapply(rf.genes, function(g) tapply(dt[, g], dt$Mut, median)) 


X40202_at X1674_at X1467_at X1635_at X37015_at X34210_at 


ALL1/AF4 8.550639 3.745752 3.708985 7.302814 3.752649 5.641130 


BCR/ABL 


9.767293 5.833510 4.239306 8.693082 4.857105 9.204237 


E2A/PBX1 7.414635 3.808258 3.411696 7.562676 6.579530 8.198781 


NEG 


7.655605 4.244791 3.516020 7.324691 3.765741 8.791774 
X32116_at X34699_at X40504_at X41470_at X41071_at X36873_at 


ALL1/AF4 7.115400 4.253504 3.218079 9.616743 7.698420 7.040593 


BCR/ABL 


7.966969 6.315966 4.924310 5.205797 6.017967 3.490262 


E2A/PBX1 7.359097 6.102031 3.455316 3.931191 6.058185 3.634471 


NEG 


ALL1/AF4 
BCR/ABL 
E2A/PBXi 
NEG 


7.636213 6.092511 3.541651 4.157748 6.573731 3.824670 
X35162_s_at X38323_at X1134_at X32378_at X1307_at X1249_at 


4.398885 4.195967 7.846189 8.703860 3.368915 3.582763. 
4.924553 4.866452 8.475578 9.694933 4.945270 4.477659 
4.380962 4.317650 8.697500 10.066073 4.678577 3.257649 
4.236335 4.286104 8.167493 9.743168 4.863930 3.791764 


X33774_at X40795_at X36275_at X34850_at X33412_at X37579_at 


ALL1/AF4 6.970072 3.867134 3.618819 5.426653 10.757286 7.614200 


BCR/ABL 


8.542248 4.544239 6.259073 6.898979 6.880112 8.231081 


E2A/PBX1 7.385129 4.151637 3.635956 5.928574 5.636466 9.494368 


NEG 


BCR/ABL 


NEG 


7.348818 3.909632 3.749953 6.327281 5.881145 8.455750 
X37225_at X39837_s_at X37403_at X37967_at X2062_at X35164_at 
ALL1/AF4 5.220668 6.633188 5.888290 8.130686 9.409753 5.577268 
3.460902 7.374046 5.545761 9.274695 7.530185 6.493672 
E2A/PBX1 7.445655 6.708400 4.217478 8.260236 7.935259 7.406714 
3.387552 6.878846 4.362275 8.986204 7.086033 7.492440 


从 结果 中 可 以 观测 到 ， 不 同类 型 突变 的 基因 的 中 位 数 表达 水 平 的 区 别 ， 它 也 给 出 了 这 些 基 
因 用 于 分 类 的 区 别 能 力 。 我 们 可 以 用 图 形 方式 来 检查 这 94 个 样本 的 具体 基因 表达 水 平 的 值 ， 可 


以 获取 更 多 的 细节 : 


> library (lattice) 
> ordMut <- order (dt$Mut) 
> levelplot (as.matrix (dt [ordMut,rf.genes]), 


+ 


十 二 二 十 十 十 十 二 十 十 地 


aspect='fill', xlab="', ylab=", 


scales=list( 
x=list( 
labels=c('+','-','*','|') [as. integer (dt$Mut [ordMut])], 
cex=0.7, 
tck=0) 
), 
main=paste (paste (c (4 ntt , trent > ' nynt ,' "j wy) > 
levels (dt$Mut) 
), 


collapse='; '), 
col.regions=colorRampPalette(c('white','orange','blue')) 
) 
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上 面 代码 获得 的 图 形 如 图 5-4 所 示 。 注 意 ， 有 儿 个 基因 在 不 同 突变 类 型 上 的 表达 水 平 显 著 不 
同 。 例 如 ， 基 因 X36275_at 的 表达 水 平 在 突变 ALLI/AF4 和 突变 BCR/ABL 之 间 显 著 不 同 。 在 上 
面 的 绘图 代码 中 ， 我 们 应 用 了 添加 包 lattice 的 函数 levelplot( ) 。 该 函数 可 以 绘制 一 个 数值 矩阵 的 
彩色 图 形 。 这 里 我 们 用 这 个 函数 来 绘制 按照 突变 类 型 来 排序 的 样本 表达 矩阵 。 


"+" ALL1/AF4; "-" BCR/ABL; "*" E2A/PBX1; "|" NEG 


x 
& 
z 


X2062_at 
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X37579_at 二 


x x 
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X32378_at -发 
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X38323_at 
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X36873_at 


X41071_at 
X41470_at +4 
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X40202 at 





HEE 


图 5-4 94 个 样本 的 30 个 基因 的 表达 水 平 


5.3.4 用 特征 僵 类 的 组 合 进行 过 滤 

本 节 用 聚 类 算法 得 到 了 30 个 变量 类 ， 假 设 每 个 类 中 的 变量 相似 。 用 这 30 个 变量 类 来 得 到 组 
合 分 类 模型 。 组 合 分 类 模型 由 m 个 模型 构成 ， 每 个 模型 是 由 30 个 变量 来 获得 的 ， 其 中 每 个 变量 
是 从 这 30 个 变量 类 中 随机 选择 的 。 

组 合 方法 是 一 种 学 习 方 法 ， 它 构建 一 组 组 合 模型 ， 然 后 用 这 组 模型 对 新 记录 的 预测 值 的 某 
种 形式 的 平均 来 对 该 记录 进行 分 类 。 就 目前 所 知 ， 组 合 方法 的 性 能 常常 超过 组 成 它 的 单个 模型 。 
组 合 模型 基于 单个 模型 间 的 某 种 形式 的 多 样 性 。 有 多 种 形式 来 创建 这 种 多 样 性 的 模型 。 例 如 ， 可 
以 通过 不 同 的 模型 参数 ， 或 者 每 个 模型 用 不 同 的 训练 集 数 据 来 获得 不 同 的 模型 。 另 一 种 多 样 性 
方式 是 用 不 同 的 预测 变量 来 得 到 组 合 中 的 每 个 模型 。 本 节 的 组 合 方法 将 采用 后 一 种 方法 。 如 果 
用 于 获取 聚 类 的 原始 预测 变量 集合 有 高 度 的 元 余 ， 那 么 这 种 方法 将 很 奏效 。 假 设 ANOVA 过 滤 得 
到 的 变量 有 某 种 程度 的 元 余 。 我 们 通过 变量 育 类 对 这 种 元 余 性 进行 建 模 。 聚 类 方法 基于 距离 ， 本 
案例 中 是 变量 间 的 距离 。 如 果 两 个 变量 的 表达 水 平 在 94 个 样本 上 相似 ， 那 么 这 两 个 变量 就 是 接 
近 的 《所 以 它们 是 相似 的 ) 。 通 过 变量 聚 类 ， 我 们 期 望 找到 相互 类 似 的 基因 组 。 添 加 包 Hmisc 有 
一 个 函数 实现 了 数据 集 变 量 的 层次 聚 类 法 ， 该 函数 是 varclus( ) 。 下 面 给 出 用 该 函数 进行 变量 聚 
类 的 代码 ; 








174+ 数据 控 拥 与 R 语言 


> library (Hmisc) 

> ve <- varclus(t(es)) 

> clus30 <~ cutree(vc$hclust, 30) 
> table(clus30) 


clus30 
12 3 4 5 6 7 8 910 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 
27 26 18 30 22 18 24 46 22 20 24 18 56 28 47 32 22 31 18 22 18 33 20 20 21 


26 27 28 29 30 
17 9 19 30 14 


我 们 应 用 函数 cutree() 得 到 了 由 30 个 变量 组 形成 的 聚 类 。 然 后 ， 检 查 每 个 组 中 有 多 少 变量 


( 即 基因 ) 。 基 于 这 个 聚 类 ， 我 们 可 以 通过 在 每 个 变量 组 中 随机 选取 一 个 变量 来 构成 我 们 的 预测 
变量 集合 。 理 由 是 每 一 个 变量 组 的 成 员 变 量 是 类 似 的 ， 因 此 有 某 种 程度 的 元 余 。 


为 了 方便 通过 随机 抽样 从 选 定 个 数 的 变量 组 (默认 30 组 ) 中 得 到 一 组 变量 ， 下 面 的 函数 实 


现 了 这 个 过 程 : 


> getVarsSet <- function(cluster,nvars=30,s9ed=NULL,, verb=F) 
+f 
if (fis.null(seed)) set.seed (seed) 


cls <- cutree(cluster,nvars) 

tots <- table(cls) 

vars <- c() 

vars <- sapply(1:nvars,function(clID) 


if (flength(tots[clID])) stop('Empty cluster! (',c1ID,')') 
x <- sample(1:tots[clID],1) 
names (cls[cls==c1ID]) [x] 
力 
if (verb) 
else 


二 十 十 十 十 十 十 十 十 十 十 十 


structure (vars, ClusMemb=cls, clusTots=tots) 
vars 


+ 


+} 
> getVarsSet (vc$hclust) 


[1] "X41346_at" "X33047_at" "X%1044_s_at" "X38736_at" "X39814_s_at" 

[6] "X649_s_at" "X41672_at" "X36845_at" "X40771_at" "X38370_at" 
[11] "X36083_at" "X34964_at" "X35228_at" "X40855_at" "X41038_at" 
[16] "x40495_at" "X40419_at" "X1173_g_at" "X40088_at" "X879_at" 
[21] "X39135_at" "X34798_at" "X39649_at" "X39774_at" "X39581_at" 
[26] "X37024_at" "X32585_at" "X41184_s_at" "X33305_at" "X41266_at" 
> getVarsSet (vc$hclust) 

[1] "X40589_at" "X33598_r_at" "X41015_at" "X38999_s_at" "X37027_at" 

[6] "X32842_at" "X37951_at" "X35693_at" "X36874_at" "X41796_at" 
[11] "X1462_s_at" "X31751_f_at" "X34176_at" "X40855_at" "X1583_at" 
[16] "X38488_s_at" "X32642_at" "X32961_at" "X32321_at" "X879_at" 
[21] "X%38631_at" "X37718_at" "X948_s_at"  "X38223_at" "X34256_at" 
[26] "X1788_s_at" "X38271_at" "X37610_at" "X33936_at" "X36899_at” 


每 次 调用 这 个 函数 ， 都 得 到 新 的 一 组 30 个 变量 。 通 过 这 个 函数 ， 可 以 容易 得 到 由 不 同 的 预 
测 变 量 所 构成 的 一 组 数据 集 ， 然 后 用 每 一 个 数据 集 进行 建 模 。 在 5.4 节 ， 我 们 给 出 用 这 种 策略 来 
获取 组 合 模型 的 函数 。 
特征 选择 算法 的 参考 文献 
在 许多 学 科 中 ， 特 征 选择 都 是 一 个 充分 研究 的 主题 。 在 数据 挖掘 领域 中 有 关 该 主题 的 优秀 
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概述 文章 和 参考 资料 是 Liu 和 Motoda (1998), Chizi 和 Maimon (2005) 以 及 Wettschereck 等 
(1997 ) 。 
5.4 遗传 学 异常 的 预测 

本 节 描 述 用 于 预测 任务 的 整个 建 模 过 程 ， 预 测 B 细胞 ALL 样本 的 遗传 学 异常 类 型 。 
5. 4.1 定义 预测 任务 

我 们 面 对 的 数据 挖掘 问题 是 一 个 预测 问题 。 精 确 地 说 ， 它 是 一 个 分 类 问题 。 预 测 分 类 任务 包 
含 用 一 组 预测 变量 的 信息 来 预测 一 个 名 义 目标 变量 取 值 的 建 模 过 程 。 用 一 组 已 经 知道 其 所 研究 
的 对 象 所 属 分 类 的 观测 值 来 得 到 模型 ， 也 就 是 说 ， 这 些 观 测 值 的 预测 变量 的 值 和 目标 变量 的 值 
是 已 知 的 。 

在 本 案例 中 ,目标 变量 是 B 细胞 ALL 样本 的 遗传 学 异常 分 类 。 在 我 们 所 选 的 数据 集中 ， 这 
个 变量 有 4 个 可 能 的 取 值 ，ALL1/AF4、BCR/ABL、FE2A/PBX1 和 NEG。 预 测 变 量 由 一 组 选 定 的 
基因 构成 ， 基 因 的 表达 水 平 是 已 知 的 。 在 建 模 过 程 中 ， 基 于 5.3 节 的 内 容 ， 我们 用 选 定 基因 的 不 
同 集合 来 尝试 建 模 。 这 意味 着 随 着 这 些 实验 的 不 同 ， 预 测 变 量 的 个 数 (特征 ) 会 变化 。 观 测 值 
由 94 个 B 细胞 ALL 个 案 构成 。 
5.4.2 模型 评价 标准 

预测 任务 是 一 个 分 类 问题 。 预 测 分 类 模型 通常 用 误 分 率 或 者 它 的 对 立 面 一 一 正确 率 来 衡量 。 
然而 ， 也 有 其 他 的 评价 预测 分 类 模型 的 标准 ， 例 如 在 ROC 曲线 下 的 面积 、 配 对 的 指标 ( 即 决策 
精确 度 和 回 淹 精 确 度 ) 以 及 类 概率 估计 的 正确 率 ( 即 ，Brier 分 数 ) 。R 的 添加 包 ROCR 给 出 了 这 
些 评价 标准 很 好 的 例子 。 

一 个 问题 评价 标准 的 选择 常常 取决 于 用 户 的 目的 。 由 于 信息 不 完整 ， 选 择 评价 标准 常常 是 
一 个 困难 的 决策 ， 例 如 缺乏 错误 地 把 本 来 属于 类 i 的 个 案 分 类 到 类 j 损失 的 信息 〈 误 分 类 信息 ) 。 

在 本 章 的 案例 研究 中 ， 我 们 没有 误 分 类 损失 的 信息 。 因 此 ， 这 里 假设 每 个 误 分 类 的 严重 程度 
是 相同 的 ， 例 如 把 一 个 属于 类 E2A/PBX1 突变 误 分 为 类 NEG 的 损失 和 把 类 ALLI/AF4 误 分 为 类 
BCR/ABL 的 损失 相等 。 另 外 ， 我 们 有 两 个 以 上 的 分 类 ， 而 ROC 分 析 还 没有 很 好 地 推广 到 多 类 问 
题 。 另 外 ， 近 来 发 现 应 用 ROC 曲线 下 的 面积 有 缺陷 问题 (Hand，2009 ) 。 基 于 上 面 的 分 析 ， 我 
们 用 标准 的 准确 率 评价 标准 ， 定 义 为 : 


ace = 1 - F È la (1,5) (5-1) 
这 里 入 是 测试 样本 的 大 小 ， 而 Pon() 是 损失 函数 ， 其 定义 如 下 : 
Loa (i,7:) = p mem (5-2) 
1 


5.4.3 实验 过 程 

这 里 的 数据 集中 观测 值 的 个 数 很 少 : 只 有 94 个 个 案 。 这 种 情况 下 ， 得 到 这 类 问题 误 分 率 可 
靠 估计 的 较 好 实验 方法 是 弃 一 交叉 验证 法 (LOOCV)。LOOCYV 是 我 们 前 面 应 用 的 上 折 交 又 验证 实 
验方 法 的 一 个 特例 ， 即 为 观测 值 的 个 数 。 简 单 地 说 ，LOOCV 从 NW -1 个 个 案 获取 一 个 模型 ， 一 
共 获 得 NN 个 模型 (WN 为 数据 集 的 大 小 ) ， 每 个 模型 由 那个 没有 用 于 建 模 的 观测 值 来 进行 验证 。 本 
书 提供 的 添加 包 函 数 loocv( ) 实现 了 这 种 实验 。 这 个 函数 应 用 的 过 程 与 前 面 章节 描述 的 其 他 实验 
比较 中 的 函数 类 似 。 下 面 的 代码 用 数据 集 iris 来 演示 该 函数 的 应 用 : 


> data(iris) 
> rpart.loocv <- function(form,train,test,...) { 
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require(rpart,quietly=T) 
m <- rpart(form,train,...) 
p <- predict (m, test, type='class') 
c(accuracy=ifelse(p == resp(form;test),100,0)) 
} . 
exp <- loocv(learner('rpart.loocv',list()), 
dataset (Species~.,iris), 
loocvSettings (seed=1234, verbose=F) ) 


t+evVvbe tet t 


> summary (exp) 

== Summary of a Leave One Out Cross Validation Experiment == 
LOOCV experiment with verbose = FALSE and seed = 1234 

* Dataset :: iris 


* Learner :: rpart.loocv with parameters: 
* Summary of Experiment Results: 


accuracy 
avg 93. 33333 
std 25.02795 
min 0.00000 
max 100.00000 


invalid 0.00000 
函数 loocv( ) 采用 3 个 常见 的 参数 : 模型 、 数 据 集 和 实验 的 设置 。 它 返回 一 个 loocvRun 类 对 


象 ， 我 们 可 以 用 函数 summary() 来 获取 该 类 对 象 的 结果 。 


用 户 定义 的 函数 (上 例 中 为 rpart. loocv( ) ) 运行 模型 ， 应 用 模型 获取 测试 集 的 预测 值 ， 返 回 
希望 LOOCYV 所 估计 的 评估 指标 向 量 。 在 上 面 的 例子 中 ， 它 简单 地 计算 模型 的 正确 率 。 这 里 要 记 
住 ， 在 LOOCYV 过 程 中 ,每 一 个 实验 和 迭代 过 程 的 测试 集 是 由 一 个 单一 的 观测 值 构成 ， 所 以 这 里 我 
们 只 要 检查 预测 值 是 否 等 于 真实 值 。 

5.4.4 建 模 技术 

如 前 面 所 描述 ， 我 们 将 应 用 3 个 不 同 的 数据 集 ， 它 们 所 应 用 的 预测 变量 是 不 同 的 。 一 个 数据 
集 应 用 ANOVA 过 程 选择 的 所 有 基因 ， 另 外 两 个 从 这 些 基 因 中 选择 30 个 。 所 有 的 数据 集 都 包含 
94 个 B 细 胞 ALL 个 案 。 除 目标 变量 外 ， 所 有 信息 都 是 数值 型 的 。 

为 了 解决 这 类 问题 ， 我 们 应 用 三 种 不 同 的 建 模 技术 。 在 本 书 的 前 面 章 节 中 ， 我 们 已 经 应 
用 过 其 中 的 两 种 ， 它 们 是 随机 森林 和 支持 向 量 机 (SVM) 。 它 们 被 认为 是 最 好 用 的 预测 方法 之 
一 。 本 节 将 尝试 的 第 三 个 方法 是 一 个 新 的 算法 ， 它 是 一 种 基于 观测 值 之 间距 离 的 方法 ， 即 k 
近邻 方法 。 

基于 随机 森林 的 模型 特别 适合 于 处 理 有 大 量 特征 的 问题 。 这 个 特征 来 源 于 随机 森林 方法 所 
应 用 的 算法 ， 它 从 问题 的 所 有 原始 变量 中 随机 选择 一 个 子 集 进行 建 模 (参见 5.4.4.1 节 )。 而 选 
择 闫 近邻 方法 ， 其 动机 是 基于 这 样 的 假定 ; 同一 类 型 的 突变 样本 有 类 似 的 基因 “签名 ”， 即 在 用 
于 描述 这 些 样 本 的 基因 上 有 类 似 的 表达 值 。 这 个 假定 的 有 效 性 极 大 地 依赖 于 所 选 定 的 描述 样本 
的 基因 。 也 就 是 说 ， 这 些 基因 应 该 能 够 很 好 地 区 分 不 同 的 突变 类 型 。 在 5.4.4.2 节 可 以 看 到 , k 
近邻 方法 利用 了 个 案 之 间 的 相似 性 ， 因 此 应 该 满足 上 面 的 假定 。 最 后 ,支持 向 量 机 用 来 尝试 找到 
基因 表达 和 遗传 学 异常 可 能 存在 的 非 线性 关系 。 

3.4.2.2 节 描 述 了 支持 向 量 机 ， 它 们 是 高 度 非 线性 的 模型 ， 可 以 用 于 回归 和 分 类 问题 。 而 
H, 在 RR 的 多 个 不 同 的 支持 向 量 机 实现 中 ， 我们 选用 添加 包 e1071 的 svm() 函数 。 
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5.4.4.1 随机 森林 

随机 森林 是 组 合 模型 的 一 个 例子 (Breiman，2001) ， 也 就 是 说 ， 它 是 由 一 组 较 简单 模型 形成 
的 。 特 别 地 ， 随 机 森林 由 一 组 决策 树 构成 ， 取 决 于 分 析 的 问题 采用 回归 树 还 是 分 类 树 。 用 户 决定 
组 合 中 树 的 数量 。 每 棵 树 都 是 通过 自助 法 抽样 进行 训练 的 ， 自 助 法 抽样 从 原始 数据 集中 用 有 放 
回 抽样 法 随机 抽取 入 个 个 案 ， 这 里 入 是 数据 集中 个 案 的 个 数 。 每 一 个 这 样 的 训练 集 获得 一 个 不 
同 的 树 。 仅 仅 考虑 原始 问题 预测 变量 的 一 个 随机 子 集 来 决定 这 些 树 的 每 一 个 结 点 ， 这 些 随机 子 
集 大 小 应 该 大 大 小 于 数据 集 预测 变量 的 个 数 。 这 些 树 完全 生长 ， 也 就 是 说 ， 它 们 没有 任何 事后 前 
枝 。 有 关 如 何 获 得 基于 树 的 模型 的 细节 ， 参 见 2. 6.2 节 。 

采用 每 棵 树 的 预测 值 的 平均 值 作 为 这 些 组 合 的 预测 值 。 对 于 分 类 问题 ， 则 采用 投票 机 制 。 对 
于 回归 问题 ， 对 每 一 棵 树 的 预测 值 进行 平均 得 到 随机 森林 的 预测 值 。 

在 R 中， 随机 森林 由 添加 包 randomForest 实现 。 本 书 已 经 给 出 了 多 个 应 用 该 包 中 的 随机 森林 
函数 来 进行 特征 选择 的 例子 。 

随机 森林 模型 的 参考 文献 

随机 森林 模型 可 以 参考 Breiman (2001) 的 原始 文献 。 也 可 以 访问 网 站 http://stat-www. 
berkeley. edu/users/breiman/ RandomForests/ 得 到 随机 森林 模型 的 更 多 资料 。 

5.4.4.2 天 近邻 方法 

天 近邻 方法 属于 懒惰 学 习 算 法 。 这 类 算法 实际 上 没有 从 训练 数据 得 到 一 个 模型 。 它 们 简单 地 
存储 这 个 训练 集 数据 。 算 法 的 主要 工作 在 于 预测 时 。 给 一 个 新 的 测试 个 案 ， 它 会 在 存储 的 训练 集 
中 寻找 类 似 的 个 案 作为 预测 值 。& 个 最 相似 的 训练 集 个 案 被 用 来 得 到 给 定 测试 个 案 的 预测 值 。 在 
分 类 问题 中 ， 预 测 值 通过 投票 方法 得 到 ， 因 此 选用 的 值 最 好 为 奇数 。 然 而 ,一 些 更 精细 的 投票 
方法 也 可 能 会 考虑 到 测试 个 案 与 个 近邻 中 每 一 个 的 距离 。 对 于 回归 问题 ， 它 采用 这 个 邻近 个 
案 目标 变量 的 均值 而 不 是 投票 。 

这 类 模型 严重 依赖 于 个 案 之 闻 相 似 性 的 标记 方式 。 这 类 相似 性 的 标记 通常 由 预测 变量 所 定 
义 的 输入 空间 上 的 一 个 测度 来 定义 。 这 个 测度 是 一 个 距离 函数 ， 它 用 来 计算 代表 任何 两 个 观测 
值 之 间 差 异 的 一 个 数值 。 有 多 个 距离 函数 ， 常 见 的 是 欧 氏 距离 函数 ， 定 义 如 下 : 255 


d(x; ,X;) = al > (Xia 一 a) (5-3) 


这 里 代表 预测 变量 的 个 数 ，x; Mx, 是 两 个 观测 值 。 

这 里 的 距离 对 于 所 选择 的 变量 标 度 和 变量 的 相关 性 很 敏感 ， 它 们 可 能 扭曲 相似 性 标记 。 另 
外 ， 变 量 的 标 度 应 该 是 一 致 的 ， 否 则 可 能 低估 一 些 较 低 均值 的 变量 间 的 差异 。 

选择 近邻 个 案 数 也 是 这 类 方法 的 一 个 重要 参数 。 常 见 的 上 值 选择 为 {1, 3, 5,7, 11}, 
但 这 仅仅 是 经 验 值 。 但 是 ， 要 避免 选择 较 大 的 左 值 ， 这 样 有 可 能 会 选用 远离 测试 个 案 的 样本 。 显 
然 ， 这 取决 于 训练 集 数据 的 密度 。 太 稀 朴 的 数据 集 更 可 能 导致 这 种 风险 。 和 其 他 训练 模型 一 样 ， 
“理想 ”的 参数 选择 可 以 通过 一 些 实验 方法 来 估计 。 在 R 中 ， 添 加 包 class ( Venables and Ripley, 
2002) 中 所 包含 的 函数 knn( ) 实现 了 天 近邻 方法 。 下 面 用 数据 集 iris 给 出 这 个 函数 的 一 个 示例 : 


> library(class) 

> data(iris) 

> idx <- sample(1:nrow(iris), as.integer(0.7 * nrow(iris))) 
> tr <- iris[idx, J 

> ts <- iris[-idx, J 

> preds <- knn(tr[, -5], ts[, -5], trl, 5], k = 3) 

> table(preds, ts[, 5]) 
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preds setosa versicolor virginica 
setosa 14 0 0 
versicolor 0 14 2 
virginica o 1 14 


MERA A, KZ knn() 应 用 的 是 一 个 非 标准 的 用 户 界面 。 第 一 个 参数 是 除了 目标 变 
量 所 在 列 以 外 的 训练 集 数据 ; 第 二 个 参数 是 测试 集 ， 同 样 不 包含 目标 变量 值 ; 第 三 个 参数 是 训练 
集 数据 的 目标 变量 值 ; 最 后 是 其 他 几 个 控制 本 方法 的 参数 ， 其 中 参数 下 控制 近邻 的 个 数 。 可 以 创 
建 一 个 函数 以 更 加 标准 的 公式 形式 的 界面 来 应 用 函数 knn( ) ， 代 码 如 下 : 


> KNN <- function(form, train, test, norm = T, norm.stats = NULL, 
wd T 
require(class, quietly = TRUE) 
tgtCol <- which(colnames(train) == as.character (form[[2]])) 
if (norm) { 
if (is.null (norm. stats)) 
tmp <- scale(train[, -tgtCol], center = T, scale = T) 
else tmp <- scale(train[, -tgtCol], center = norm.stats[[1]], 
scale = norm.stats[[2]]) 
train[, -tgtCol] <- tmp 
ms <- attr(tmp, "scaled:center") 
ss <- attr(tmp, "scaled:scale") 
test[, -tgtCol] <- scale(test[, -tgtCol], center = ms, 
scale = ss) 
} 
knn(train[, -tgtCol], test[, -tgtCol], train[, tgtCol], 
wed 


+ 二 十 十 十 十 十 十 十 十 十 十 十 十 十 


十 


+} 
> preds.norm <- KNN(Species ~ ., tr, ts, k = 3) 
> table(preds.norm, ts[, 5]) 


preds.norm setosa versicolor virginica 


setosa 14 0 0 
versicolor 0 14 3 
virginica 0 1 13 


> preds.notNorm <- kKNN(Species ., tr, ts, norm = F, k = 3) 


> table(preds.notNorm, ts[, 5]) 


preds.notNorm setosa versicolor virginica 


setosa 14 0 0 
versicolor 0 14 2 
virginica 0 1 14 


上 述 蚂 数 允 许 用 户 指明 是 否 在 调用 函数 knn( ) 之 前 对 数据 进行 标准 化 。 这 通过 参数 norm 来 
完成 。 在 上 面 的 例子 中 ， 有 两 个 应 用 它 的 例子 。 第 三 个 选择 是 给 参数 norm. stats 提供 一 个 两 元 素 
的 列表 ， 列 表 的 两 个 元 素 分 别 给 出 中 心 化 和 离散 程度 统计 量 。 如 果 没 有 应 用 参数 nom. stats, Af 
么 函数 将 应 用 均值 作为 中 心 的 估计 值 ， 用 标准 差 作 为 离散 程度 的 估计 值 。 在 我 们 的 实验 中 ， 我 们 
将 用 中 位 数 和 四 分 位 距 作为 参数 来 调用 函数 。 在 本 书 提供 的 R 添加 包 中 包含 了 函数 kKNN( ) ， 因 
此 你 不 必 手 工 输入 以 上 代码 。 

k 近邻 方法 的 参考 文献 

这 类 方法 的 标准 参考 文献 是 Cover 和 Hart (1967) 的 文章 。 该 方法 很 好 的 概述 可 以 参考 Aha 
等 (1991) 的 文章 以 及 Aha (1997) 的 文章 。 更 深入 的 分 析 可 以 参考 Aha (1990) 的 博士 论文 以 
及 Wettschereck (1994) 的 文章 。 一 个 不 同 于 懒惰 学 习 但 是 相关 的 方法 是 所 谓 的 “局 部 模型 ” 
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(Nadaraya, 1964; Watson，1964)。 这 方面 的 优秀 文献 有 Atkeson 等 (1997) 的 文章 ，Cleveland 
和 Loader (1996) 的 文章 。 256 


l 


5.4.5 模型 比较 257 

本 节 描 述 应 用 LOOCC 实验 方法 来 比较 所 选 模型 的 过 程 。 

在 5.3 节 ， 我 们 学习 了 几 个 特征 选择 的 例子 。 我 们 用 基本 的 过 滤 法 删除 了 较 小 变化 的 基因 和 
对 照 探 针 。 下 一 步 ， 我们 应 用 基于 表达 水 平 在 目标 变量 上 的 条 件 分 布 方法 ， 该 方法 是 基于 
ANOVA 统计 检验 。 最 后 ， 从 ANOVA 检验 的 结果 中 ， 我 们 尝试 应 用 随机 森林 和 变量 聚 类 方法 来 
进一步 减少 基因 的 数目 。 除 了 第 一 个 简单 的 过 滤 法 外 ， 所 有 其 他 方法 都 某 种 程度 依赖 于 目标 变 
量 的 值 。 我 们 可 能 怀疑 这 些 过 滤 阶 段 是 否 可 以 在 实验 比较 之 前 进行 ， 或 者 是 否 可 以 把 这 些 过 滤 
过 程 集成 到 比较 过 程 中 。 如 果 目 的 是 获得 对 新 样本 分 类 正确 率 的 无 偏 估计 ， 那 么 我 们 应 该 把 这 
些 过 滤 过 程 作 为 需要 评估 和 比较 的 数据 挖掘 过 程 的 一 部 分 。 否 则 ， 它 意味 着 我 们 得 到 的 估计 是 
有 偏 的 ， 因 为 应 用 测试 集 信息 去 获得 建立 模型 的 基因 。 事 实 上 ， 如 果 我 们 用 整个 数据 集 来 决定 应 
用 哪些 基因 ， 那 么 在 这 个 选择 过 程 中 就 应 用 了 那些 作为 测试 集 的 一 部 分 信息 ， 这 些 信息 应 该 是 
未 知 的 。 基 于 此 ， 我 们 把 过 滤 阶 段 包 含 进 用 户 定义 的 函数 中 ， 这 些 函 数 实现 了 我 们 要 比较 的 
模型 。 

对 于 LOOCYV 过 程 的 每 一 次 迭代 ， 在 创建 预测 模型 之 前 ， 只 采用 LOOCV 函数 提供 的 训练 集 
进行 特征 选择 过 程 。 初 始 的 过 滤 过 程 将 在 LOOCYV 比较 之 前 进行 ， 如 果 我 们 在 LOOCYV 过 程 之 内 
进行 简单 过 滤 过 程 ， 那 么 这 一 步 豫 中 剔除 的 基因 将 不 发 生变 化 。 对 照 探 针 总 是 被 剔除 ， 如 果 没 有 
给 出 一 个 单一 样本 ， 那 么 由 于 低 方差 被 剔除 的 基因 将 仍旧 非常 可 能 被 剔除 (这 是 LOOCV 过 程 每 
一 次 迭代 所 做 的 ) 。 

我 们 将 描述 为 运行 实验 需要 提供 给 函数 LOOCY 的 用 户 定义 函数 。 对 于 每 一 个 建 模 技术 ， 我 
们 将 评估 几 个 变 体 。 这 些 变 体 不 仅 在 模型 本 身 的 几 个 参数 上 有 所 不 同 ， 而 且 它 们 所 应 用 的 特征 
选择 过 程 也 不 相同 。 下 面 的 列表 给 出 了 每 个 建 模 技术 的 这 些 变 体 的 信息 。 


> vars <- list() 
> vars$randomForest <- list(ntree=c (500,750,100), 
+ mtry=c(5,15,30), 
fs.meth=list (list(‘all'), 
list (‘rf',30), 
list (‘varclus' ,30,50))) 
vars$svm <- list(cost=*c(1,100,500), - 
gamma=c(0.01,0.001,0.0001), 
fs.meth=list (list (‘all'), 
list(rf',30), 
list Cvarclus' ,30,50))) 
vars$knn <- list (k=c(3,5,7,11), 
norm=c(T,F), 
fs.meth=list (list(‘all'), 
list ('rf',30), 
list (varclus' ,30,50))) 


上 面 的 列表 含有 3 个 元 素 ， 每 个 元 素 对 应 于 一 个 需要 比较 的 算法 。 对 于 每 个 模型 ， 该 列表 包 
含 了 应 该 用 到 的 参数 。 对 于 每 一 个 参数 ， 给 出 了 一 组 可 选 值 。 所 有 这 些 值 的 组 合 将 决定 系统 的 不 
同 变 体 。 对 于 随机 森林 ， 考 虑 参数 ntree 的 3 个 值 ， 它 设 定 组 合 中 树 的 个 数 。 人 参数 mtry 有 3 MA, 
当 用 于 确定 每 个 树 结 点 的 检验 时 ， 该 参数 决定 变量 的 随机 子 集 的 大 小 。 最 后 一 个 参数 fs. meth 提 
供 了 我 们 下 面 将 描述 的 特征 选择 阶段 的 选项 。 对 于 支持 向 量 机 ， 参 数 cost 和 参数 gamma 都 考虑 3 
个 取 值 。 对 于 上 近邻 方法 ， 考 虑 参数 下 的 4 ME; 对 于 决定 是 否 标准 化 预测 变量 数据 的 参数 ， 考 
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B2 “MEL. 

如 前 所 述 ， 对 于 每 个 训练 方法 ， 我 们 考虑 3 个 不 同 的 特征 集合 〈 由 参数 fs. meth HE). #8 
一 个 选择 (list( "al' )) 应 用 ANOVA 统计 检验 得 到 的 所 有 特征 。 第 二 个 选择 〈list( rf’, 30) ) 
通过 随机 森林 排序 的 方法 ， 从 ANOVA 检验 得 到 的 特征 中 选择 30 个 基因 。 最 后 一 个 选择 应 用 前 
面 描述 的 变量 聚 类 组 合 策略 选择 30 个 基因 ， 然 后 从 变量 聚 类 中 随机 选择 30 个 预测 变量 ， 建 立 50 
个 模型 的 组 合 模型 。 为 了 实现 上 面 基 于 从 基因 聚 类 中 选择 不 同 的 变量 集 的 组 合 方法 ,我们 建立 
下 面 的 函数 ; 


> varsEnsembles <- function(tgt, train,test, 

+ varsSets, 
baseLearner,blPars, 
verb=F) 


ms 


preds <- matrix(NA,ncol=length(varsSets),nrow=NROW(test)) 
for(v in seq(along=varsSets)) { 
if (baseLearner=='knn') 
preds[,v] <- knn(train[,-which(colnames(train)==tgt)], 
test [,-which(colnames(train)==tgt)], 
train[, tgt],b1Pars) 
else { 
m <- do.call (baseLearner, 
c(list(as.formula(paste(tgt, 


paste(varsSets[[v]], 
collapse='+'), 
sep='"")), 
train[,c(tgt,varsSets[[v]])]), 
blPars) 
) 
if (baseLearner == 'randomForest') 


preds[,v] <- do.call('predict', 
list (m,test[,c(tgt, varsSets[[v]])], 
type='response' ) ) 
else 
preds[,v] <- do.call('predict', 
list (m, test [,c(tgt, varsSets[[v]])])) 
了 
} 
ps <- apply(preds,1, function (x) 
levels (factor (x)) [which.max (table (factor (x)))])} 
ps <- factor(ps, 
levels=1:nlevels(train[,tgt]), 
labels=levels(train[,tgt])) 
if (verb) structure(ps,ensemblePreds=preds) else ps 


十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 ++++++++ 二 二 


十 


+} 

EL RRS MSS Be AES. UER, MR. FAA (varsSets) 是 一 个 
含有 变量 名 (得 到 的 聚 类 ) 集合 的 列表 ， 我 们 应 该 从 该 变量 集合 中 抽取 一 个 变量 作为 组 合 的 每 
一 个 成 员 的 预测 变量 。 最 后 两 个 参数 (baseLearner 和 blPars) 给 出 了 组 合 的 每 个 成 员 所 应 用 的 训 
练 方法 的 函数 实现 的 名 称 以 及 相应 的 参数 列表 。 上 面 函 数 的 结果 是 组 合 方法 对 给 定 测 试 集 的 预 
测 值 。 这 些 预 测 是 组 合 的 成 员 通 过 投票 机 制 产生 的 。 组 合 的 成 员 之 间 的 差别 在 于 它们 所 应 用 的 预 
测 变量 ， 这 些 预 测 变量 由 参数 varsSets 确定 。5. 3. 4 节 给 出 了 这 种 从 变量 聚 类 过 程 得 到 预测 变量 集合 
的 方法 。 考 虑 到 每 一 种 训练 方法 所 进行 的 任务 是 相似 的 ， 因 此 我 们 建立 了 一 个 用 户 定义 的 模型 函 
数 ， 它 把 所 应 用 的 训练 方法 作为 参数 之 一 。 函 数 genericModel() 实现 了 这 种 方法 ， 代 码 如 下 : 
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> genericModel <- function(form, train, test, 
learner, 
fs.meth, 

..) 


cat('=') 
tgt <- as.character(form[[2]]) 
tgtCol <- which (colnames(train)==tgt) 


# Anova filtering 

f <- Anova(train[,tgt] ,p=0.01) 

ff <- filterfun(f) 

genes <- genefilter(t(train[,-tgtCol]),ff) 
genes <- names (genes) [genes] 


train <- train[,c(tgt,genes)] 
test <- test[,c(tgt,genes)] 
tgtCol <- 1 


# Specific filtering 
if (fs.meth[([1]]=='varclus') { 
require (Hmisc, quietly=T) 
v <- varclus(as.matrix(train[,-tgtCol])) 
VSs <- lapply(1:fe.meth[[3]] ,function(x) 
getVarsSet (v$hclust,nvars=fs.meth[[2]])) 
pred <- varsEnsembles (tgt,train,test,VSs,learner,list(...)) 


} else { 

if (fs.meth[[1]]=='rf') { 
require (randomForest , quietly=T) 
rf <- randomForest (form, train, importance=T) 
imp <- importance (rf) 
imp <- imp[,ncol (imp)-1] 
rf.genes <- names (imp) [order (imp, decreasing=T) [1:fs.meth[[2]]]] 
train <- train[,c(tgt,rf.genes)] 
test <- test[,c(tgt,rf.genes)] 

} 


if (learner == 'knn') 
pred <~ kNN (form, 
train, 
test, 
norm. stats=list (rowMedians(t(as.matrix(train[,-tgtCol]))), 
rowIQRs(t(as.matrix(train[,-tgtCol])))), 
weed 
else { 
model <- do.call(learner,c(list(form,train),list(...))) 
pred <- if (learner != 'randomForest') predict (model, test) 
else predict (model, test , type='response' ) 


} 


'c(accuracy=ifelse(pred == resp(form, test) ,100,0)) 
} 


在 函数 LOOCV 的 每 一 次 迭代 中 ， 将 调用 上 面 的 用 户 定义 函数 。 在 微 阵列 数据 上 完成 所 有 这 


二 


81 


182: 数据 挖掘 与 R 语言 


些 变 体 的 实验 需要 很 长 一 段 时 间 2 。 除 非 你 意识 到 时 间 的 限制 ， 否 则 这 里 不 建议 你 运行 下 面 的 实 
验 。 实 验 的 结果 在 本 书 的 网 站 上 ， 你 可 以 不 用 运行 这 些 实验 而 继续 进行 后 面 的 结果 分 析 。 运 行 实 


验 的 代码 如 下 : 
> require(class, quietly=TRUE) 
> require (randomForest , quietly=TRUE) 
> require(e1071 , quietly=TRUE) 
> load (myALL.Rdata') 
> es <- exprs(ALLb) 
> # simple filtering 
> ALLb <- nsFilter(ALLb, 
+ var. func=IQR, var. cutoff=IQR(as.vector(es))/5, 
+ feature.exclude=""AFFX") 
> ALLb <- ALLb$eset 
> # the dataset 
> featureNames(ALLb) <- make.names(featureNames (ALLb)) 
> dt <- data. frame (t (exprs (ALLb) ) , Mut=ALLb$mol . bio) 
> DSs <- list (dataset (Mut ~ .,dt,'ALL')) 
> # The learners to evaluate 
> TODO <- c('knn!','svm','randomForest') 
> for(td in TODO) { 
assign (td, 
experimental Comparison( 
DSs, 
cl 
do.call('variants', 
c(list('genericModel',learner=td), 
vars[[td]], 
varsRootName=td) ) 
), 
loocvSettings (seed=1234, verbose=F) 
) 


二 十 十 十 十 十 十 十 二 十 二 十 


+ 


save(list=td,file=paste(td,'Rdata',sep='.')) 
+} 
上 面 的 代码 应 用 函数 experimentalComparison() 来 测试 应 用 LOOCY 方法 的 所 有 变 体 。 上 面 代 
码 用 函数 variants( ) 来 生成 变 体 的 所 有 learner 对 象 ， 从 前 面 可 知 ， 这 些 变 体 由 参数 vars 给 出 的 列 
表 元 素 提 供 。 每 一 个 变 体 由 一 个 LOOCV 过 程 来 评估 。 上 面 代 码 的 结果 是 3 个 compExp HR, € 
们 分 别 命名 为 knn, svm 和 randomForest。 这 些 结果 对 象 包含 相应 训练 方法 变 体 的 结果 ， 所 有 这 些 
变 体 的 结果 存储 在 以 训练 方法 名 为 文件 名 ， 以 “. Rdata” 为 后 缀 的 文件 中 。 在 本 书 的 网 站 中 有 这 
些 结果 文件 。 因 此 ， 你 如 果 没 有 运行 上 面 的 实验 ， 你 可 以 下 载 这 些 文件 到 你 的 本 地 计算 机 中 ， 然 
后 用 函数 load( ) (以 相应 文件 的 名 称 为 参数 ) KRA R 软件 : 


> load("knn.Rdata") 
> load("svm.Rdata") 
> load("randomForest .Rdata") 


一 个 训练 方法 的 所 有 变 体 的 结果 保存 在 相应 的 对 象 中 。 例 如 ， 如 果 需 要 检查 哪 一 个 支持 向 
量 机 变 体 最 好 ， 可 以 用 下 列 命令 : 


> rankSystems(svm, max = T) 


$ALL 


在 我 的 标准 配置 的 桌面 计算 机 上 ， 运 行 以 上 代码 大 约 需 要 3 天 。 
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$ALL$accuracy 
system score 
1 svm.v2 86.17021 
2 svm.v3 86.17021 
3 svm.v5 86.17021 
4 svm.v6 86.17021 
5 svm.v9 86.17021 


函数 rankSystems() 用 一 个 类 compExp 对 象 为 参数 ， 获 得 实验 过 程 中 所 估计 的 每 一 个 评估 指 
标的 最 好 变 体 。 在 默认 情况 下 ， 该 函数 假设 最 小 值 意味 着 “最 好 ”。 如 果 最 大 值 意味 着 “最 好 ”， 
例如 正确 率 ， 则 可 以 如 上 所 示 应 用 参数 max ”。 为 了 得 到 所 有 实验 的 总 体 情况 ， 可 以 用 下 面 代码 
把 3 个 结果 对 象 结合 在 一 起 : 

> all.trials <- join(svm, knn, randomForest, by = “variants") 

通过 结合 在 一 起 的 compExp 对 象 ， 可 以 检查 我 们 实验 中 总 体 最 好 的 分 数 : 

> rankSystems(all.trials, top = 10, max = T) 


$ALL 
$ALL$accuracy 

system score 
1 knn.v2 88.29787 
2 knn.v3 87.23404 


3 randomForest.v4 87.23404 
4 randonmForest.v6 87.23404 
svm.v2 86.17021 
svm.v3 86.17021 
7 svm.vS 86.17021 
8 svm.v6 86.17021 
9 svm.v9 86.17021 
10 svm.v23 86.17021 


获得 最 高 分 数 的 是 下 近邻 方法 的 一 个 变 体 。 下 面 查看 该 变 体 的 特征 : 


> getVariant("knn.v2", all.trials) 


Learner:: "“genericModel" 


Parameter values 
learner = "knn" 
k = 5 
norm = TRUE 
fs.meth = list("rf", 30) 


该 变 体 应 用 随机 森林 过 滤 出 的 30 个 基因 、5 个 近邻 ， 并 对 基因 表达 水 平 进行 标准 化 。 有 趣 
的 是 ， 在 最 高 的 10 个 分 值 中 ， 只 有 最 后 一 个 (“svm. v23”) 的 30 个 基因 不 是 应 用 随机 森林 过 滤 
得 到 的 。 这 第 10 位 最 好 的 模型 应 用 ANOVA 过 滤 出 的 所 有 基因 。 注 意 ， 这 10 个 模型 的 正确 率 分 
值 很 相似 。 事 实 上 ， 考 虑 到 我 们 有 94 个 测试 样本 ， 最 好 模型 的 正确 率 意味 着 有 11 个 样本 分 类 错 
误 ， 而 第 10 位 最 好 的 模型 有 13 个 错误 。 

也 许 需 要 知道 模型 (例如 ， 最 好 的 模型 》 犯 了 哪 种 类 型 的 错误 。 混 清和 矩阵 提供 了 这 种 类 型 
的 信息 。 为 了 得 到 混淆 和 矩阵， 需要 知道 模型 预测 值 对 应 的 真实 值 。 我 们 的 用 户 定义 函数 没有 输出 


日 ”如 果 我 们 有 多 个 评估 指标 ， 有 些 指标 需要 最 小 化 ， 其 他 需要 最 大 化 。 可 以 设置 参数 ma 为 布尔 值 向 量 。 
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预测 值 ， 它 只 给 出 了 决策 正确 率 。 因 此 ，compExp 对 象 没 有 这 种 信息 。 如 果 我 们 需要 这 种 额外 的 
信息 ， 在 实验 过 程 的 每 一 次 迭代 中 ， 在 计算 评估 指标 的 顶部 ， 可 以 使 用 户 定义 函数 返回 这 些 信息 
并 赋 给 实验 比较 过 程 。 如 第 4 章 所 示 ， 这 里 用 于 接收 和 存储 这 些 额 外 信息 。 设 想 我 们 需要 知道 最 
好 的 模型 在 LOOCYV 过 程 的 每 一 次 选 代 中 的 预测 值 。 下 面 的 代码 让 我 们 获取 这 些 信 息 。 下 面 的 代 
码 着 重 于 最 好 的 模型 ， 当 然 可 以 简单 地 修改 使 它 可 以 应 用 于 其 他 模型 。 


> bestknn.loocyv <- function(form,train,test,...) { 
+  require(Biobase, quietly=T) 

require (randomForest ,quietly=T) 

cat ('=') 

tgt <- as.character(form[[2]]) 

tgtCol <- which(colnames(train)==tgt) 

# Anova filtering 

f <- Anova(train[, tgt] ,p=0.01) 

ff <- filterfun(f) 

genes <- gonefilter(t (train[,-tgtCol]),ff) 
genes <- names (genes) [genes] 

train <- train[,c(tgt,genes)] 


test <- test[,c(tgt,genes)] 
tgtCol <- 1 
# Random Forest filtering 
rf <- randomForest (form, train, importance=T) 
imp <- importance(rf) 
imp <- imp[,ncol(imp)-1] 
rf.genes <- names(imp) [order (imp, decreasing*T) [1:30]] 
train <- train[,c(tgt,rf.genes)] 
test <- test[,c(tgt,rf.genes)] 
# knn prediction 
ps <- kNN(form, train, test,norm=T, 
norm. stats=list (rowMedians(t (as.matrix(train[,-tgtCol]))), 
rowIQRs(t(as.matrix(train[,-tgtCol])))), 
k=5,...) 
structure (c(accuracy=ifelse(ps == resp(form,test),100,0)), 
itInfo=list (ps) 
) 
了 
resTop <- loocv(learner ('bestknn.loocv',pars=list()), 
dataset (Mut~.,dt), 
loocvSettings (seed=1234, verbose=F), 
itsInfo=T) 


LP t+t+t+++++++t+t+t+ttttttt HttHlHltlllhlŇ 


PRIX bestknn. loocv( ) 实际 上 是 前 面 提 及 的 函数 genericModel() 的 特例 ， 它 设 定 5 个 近邻 ， 

应 用 随机 森林 过 滤 法 ， 应 用 中 位 数 和 四 分 位 距 来 进行 标准 化 。 除 了 它 的 返回 结果 部 分 以 外 ， 大 部 

分 的 代码 和 函数 genericModel() 一 样 。 这 个 新 函数 不 是 返回 模型 的 正确 率 ， 它 返回 一 个 结构 。 如 

之 前 描述 的 那样 ， 结 构 是 一 种 有 附加 属性 的 R 对 象 。 函 数 structure( ) 可 以 通过 附加 一 组 属性 来 
创建 这 种 “丰富 ”的 对 象 。 在 我 们 的 用 户 定义 函数 中 ， 如 果 我 们 需要 为 函数 looev( ) 返回 一 些 

额外 信息 ， 我 们 就 应 该 在 一 个 名 为 itsInfo 的 属性 中 完成 。 在 上 面 的 函数 中 ， 我 们 应 用 这 个 属性 返 

回 模型 的 预测 值 。 在 函数 loocv() 中 存储 实验 过 程 的 每 一 次 迭代 给 出 的 这 个 信息 。 为 了 让 函数 

6 loocv( ) 保存 这 些 信息 ， 需 要 应 用 可 选 参数 itsInfo =T 来 调用 函数 loocv( ) 。 这 可 以 确保 用 户 自 定 
义 函 数 返回 的 任何 内 容 可 以 作为 一 个 名 为 itsInfo 的 属性 ， 该 属性 将 收集 在 一 个 列表 中 ， 并 作为 函 
265 | 数 loocv() 的 结果 中 名 为 itsInfo 的 属性 返回 。 最 后 ， 我 们 可 以 检查 这 一 信息 ， 即 检查 每 一 次 迭代 
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中 最 好 模型 的 预测 值 。 

为 了 检查 包含 我 们 所 需要 信息 的 属性 内 容 ， 可 以 应 用 如 下 代码 〈 下 面 只 显示 了 开始 的 4 个 
预测 值 ) : 

> attr(resTop, "itsInfo") [1:4] 

(C1) 


[1] BCR/ABL 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG 


[[2]] 
[1] NEG 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG 


[[3]] 
[1] BCR/ABL 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG 


[[4]] 
[1] ALL1/AF4 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG 


应 用 函数 attr() 可 以 获取 一 个 R 对 象 的 任何 属性 值 。 我 们 知道 ， 属 性 itsInfo 含有 LOOCV 过 
程 每 次 迭代 的 预测 值 。 应 用 这 些 信息 和 数据 集 的 真实 值 ， 可 以 得 到 混 清和 矩阵 ， 代 码 如 下 : 


> preds <- unlist(attr(resTop, “itsInfo")) 
> table(preds, dt$Mut) 


preds ALL1/AF4 BCR/ABL E2A/PBX1 NEG 
ALL1/AF4 10 0 0 0 
BCR/ABL 0 33 0 4 
E2A/PBX1 0 ~ 0 3 1 
NEG 0 4 2 37 


可 以 用 混淆 矩阵 来 检查 模型 所 犯错 误 的 类 型 。 例 如 ， 模 型 正确 地 预测 了 所 有 的 突变 类 型 为 
ALLI/AF4 的 样本 。 同 时 ， 我 们 观测 到 模型 所 犯 的 大 部 分 错误 是 把 一 个 具有 某 些 突变 的 个 案 预 测 
为 类 NEC。 然 而 ， 模 型 也 把 5 个 没有 突变 的 样本 错误 地 预测 为 有 某 些 异常 。 266 


5.5 小 结 


本 章 的 主要 目的 是 介绍 R 社 区 十 分 关注 的 数据 挖掘 领域 ， 生物 信息 学 中 的 一 系列 应 用 。 这 
里 探索 了 Bioconductor 项 目的 一 些 工 具 ， 该 项 目 提供 了 专用 于 生物 信息 学 中 应 用 问题 的 大 量 RR 
加 包 。 作 为 一 个 具体 的 例子 ， 我 们 着 重 于 生物 信息 学 预测 任务 : 预测 与 串 有 急性 淋巴 细胞 白血病 
的 病人 样本 相关 的 基因 突变 类 型 。 基 于 从 微 阵列 实验 得 到 的 一 组 基因 的 表达 水 平 信息 ， 建 立 了 
多 个 分 类 模型 。 就 数据 挖掘 概念 而 言 ， 本 章 着 重 于 下 列 主题 : 

。 有 大 量 预测 变量 问题 的 特征 选择 方法 。 

© 分 类 方法 。 

© 随机 森林 。 

e 上 近邻 方法 。 

e 支持 向 量 机 。 

。 用 不 同 的 预测 变量 集合 进行 组 合 。 
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。 弃 一 交叉 验证 法 。 
对 于 R 而 言 ， 我 们 学 习 了 几 种 新 的 技术 : 
o 如 何 处 理 微 阵列 数据 。 
。 应 用 ANOVA 检验 比较 几 组 数据 的 均值 。 
。 在 分 类 问题 中 用 随机 森林 来 选择 变量 。 
。 BERK, 
。 获得 用 不 同 预测 变量 建立 的 模型 的 组 合 。 
o 获得 k 近 邻 模 型 。 

267 。 用 弃 一 交叉 验证 法 估计 模型 的 精度 。 
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wrappers (封装 ) , 112, 241 
Frequency tables (频数 表 ) , 12, 13 
Function composition ( 函数 复合 ) , 12, 17, 46 
Functions ( 函数 ) 
creating 〈 创建 ) ，30 
default values of parameters (参数 默认 值 ) 31 
... parameter (参数 ), 82 
returned value (返回 值 ) , 31 
Future markets (期 货 ), 130 
buy limit orders 《 限 价 买 人 指令 ) , 131 
buy stop orders ( 买 人 停止 指令 ) ，131 
long positions (254), 131 
sell limit orders 〈 限 价 卖 指令 )，131 
sell stop orders ( 卖 出 停止 指令 ), 131 
short positions (空头 ), 131 
G 
Growing window (生长 窗口 ) 122 
H 


Histograms ( 直方 图 ), 44, 239 
conditioned (条 件 ), 59 

Hold-out experiments 《保留 试验 ), 194-195 

| 

Imbalanced classes (失衡 类 ), 185, 209-211 
over-sampling (过 采样 ), 210 
SMOTE (SMOTE 方法 ), 210 
under-sampling 〈 欠 采样 ) , 210 


Incremental learners (增长 训练 法 ) , 121 
Index vectors (索引 向 量 ) 
character 《特征 ) ，18 
empty (È), 18 
integer (整数 ) ，17 
logical (逻辑 ) 16 
negative indexes ( 负 索 引 ) ,18 
Interactive identification of cases (可 视 化 标识 个 
案 ), 80 
K 


k-nearest neighbors (k 近邻 法 ), 255-257 
Kernel density estimate ( 核 密度 函数 估计 ), 46 
Kolmogorov-Smirnov tests (K-S 检验 ) 180 


L 


Leave-one-out CV ( 弃 一 交叉 验证 法 ) , 253-254, 258- 
266 
Lift charts (提升 图 ), 191 
Linear regression (线性 回归 ), 63-71 
adjusted r = Adjusted R? (调整 的 r= 调整 的 
FR), 66 
ANOVA tests (方差 分 析 检 验 ), 67 
diagnostic information (诊断 信息 ) . 66 
graphical diagnostics (图 形 诊断 ) ，66 
model simplication (模型 简化 ), 67, 69 
model updating (模型 更 新 ), 67 
nominal variables (名 义 变量 ) , 65 
obtaining (获取 ) , 64 
predictions 《预测 ) , 78 
proportion of variance (方差 比例 ) , 66 
r=R’, 66 
summary 〈 汇 总 ) 65 
summary( ) (Summary K), 67, 70 
Lists (列表 ) , 23-26 
components (元 素 ) , 23 
concatenating (合并 ) 25 
creating ( 创建 ) 23 
extending (扩展) , 25 
named components (命名 元 素 ), 24 
number of components (元 素 个 数 ) , 25 
removing components ( 移 除 元 素 ) 25 
subsetting ($38) , 23 
unattening ( 移 除 关联 ) ，26 
Local outlier factors (LOF ) (局 部 离 群 因子 )， 
205-208 
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M P 
Marginal frequencies (边缘 频数 ) , 参见 Frequency Packages ( 包 ) 
tables adabag, (adabag 包 ) , 218 
Matrices (和 矩阵) , 19-21 ALL (ALL 数据 集 ) , 235 
creating ( 创建) 19 Biobase, (Biobase 包 ) , 235, 241 
naming (#744), 21 car (car 数据 集 ) , 45 
sub-setting (F), 19 class (28), 256 
Matrix algebra 〈 和 矩阵 代数 ) , 23 cluster (3828), 201 
Maximum drawdown (SAI), 132 DBI (DBI 包 ) , 105, 107 
Mean absolute deviation (平均 绝对 偏差 ), 参见 Mean e1071 (e1071 包 ), 212 
absolute error (绝对 误差 ) earth (earth 包 ) , 129 
Mean absolute error (平均 绝对 误差 ), 77 ff (EE), 107 
Mean squared error ( 均 方 误差 ), 78, 115 genefilter (genefilter 包 ) , 239, 243 
Model formulas 〈 模 型 公式 ) , 64 Hmise ( Hmise 包 ) , 167, 250 
Model selection criteria (模型 选择 准则 ), 77 installing (Z$), 4 
Monte Carlo estimates (蒙特 卡 罗 估 计 ), 142-156 kernlab (kernlab 包 ), 126 
Multivariate adaptive regression splines (多 元 自 适 应 klaR (klaR €), 212 
回归 样 条 ), 129-130 lattice (lattice 包 ), 49, 248 
MySQL (MySQL) loading (RA), 49 
creating a database (建立 数据 库 ), 36 mda (mda 包 ) , 129 
creating a table (建立 表 ) , 36 nnet (nnet €), 123 


inserting records (插入 记录 ) , 37 PerformanceAnalytics (性 能 分 析 ), 132, 158 
listing records ( 列 出 记录 ), 37 quantmod (quantmod 包 ), 103, 107 

logging into the server (在 服务 器 中 记录 日 志 ), 36 randomForest ( RandomForest 包 ), 255 
quitting GEH), 37 RMySQL (RMySQL 包 ) , 105, 107 


using a database (应 用 数据 库 ) , 36 ROCR (ROCR 包 ) , 189, 252 
RODBC (RODBC 42) , 105 


N RWeka (RWeka 包 ), 218 
NA value (NA 值 ), 8, 42 tseries (tserie €J), 102 
Naive Bayes (简单 贝 叶 斯 ) , 211-217 TTR (TTR 包 ), 112 
Neural networks (神经 网 络 ), 123-126 updating (更 新 ) ,5 
Non-stationary time series ( 非 平稳 时 间 序 列 ), 121 xts (xts 包 ) 98 
Normal distribution ( 正 态 分 布 ) , 16, 44 zoo (zoo 包 ), 98, 102 
Q-Q plots (Q-Q I), 45 Precision (精确 度 ) 119, 188 
Normalization (REE) , ÆJ Standardization Precision recall curves (决策 精确 度 / 回溯 精确 度 ) , 188 
Normalized distance to typical price (标准 化 距离 以 用 Probabilistic classifiers (概率 分 类 ), 186 
于 标准 价格 ) ，93 Profit/loss (利润 /损失 ), 132 
Normalized Mean Squared Error (标准 均 方 误差 )，78 R 
O R 
OR, , 205 command prompt (命令 行 提示 符 ) , 3 
Outlier detection ( 离 群 值 检 测 ) ，184 entering commands (输入 命令 ) ,3 
Outliers ( 离 群 值 ) , 46, 48 executing commands in afile (执行 文件 中 的 命令 )，34 
identification (标识 ) , 48 help mailing lists (帮助 邮件 列表 ) , 1 


Overfitting ( 过度 拟 合 ) 72, 81 help system (帮助 系统 ), 5 
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installing (ZÆ), 3 
installing add-on packages (安装 添加 包 )， 参 见 
Packages, installing 
loading objects ( 载 人 对 象 ), 35 
quitting (iB i), 4 
running 《运行 ), 4 
saving objects (保存 对 象 ), 35 
saving the workspace (保存 工作 空间 ), 35 
R objects (R 对 象 ) 
attributes (数学 ), 198 
class (类 ) , 33 
listing (列表 ) , 7 
methods 〈 方 法 ) , 33 
removing ( 移 除 ) 7 
slots (格子 ), 33, 92 
structures (结构 ), 198, 265 
valid names (有 效 名 称 ) , 7 
R operators (R 运算 符 ) 
@, 33, 92 
%in% , 171 
arithmetic (ÆR), 6 
assignment (赋值 ) 6 
logical (局 部 ), 17 
logical negation (37987) , 49 
sequence (JFJ), 14 
Random forests ( 随机 森林 ) , 88, 113, 254 
Random sequences ( 上 随机 序列 ) , 参见 Sequences, 
random 
Reading data from a textfile (从 文本 文件 读 人 数据 ) , 42 
Recall ( 回溯 精确 度 ), 119, 188 
Recycling rule (循环 规则 ) , 10, 14, 17 
Regime shift (区 域 转换 ) , 121 
Regression tasks ( 回归 任务 ), 117 
Regression trees ( 回归 树 ), 63, 71-77 
cost complexity pruning 〈 损 失 复 杂 性 剪 枝 ) , 74 
graphical representation (图 形 表示 ), 72 
model interpretation (模型 解释 ) , 72 
obtaining (获取 ) , 71 
overfitting (过 度 拟 合 ) , 72 
predictions ( 预测) ，78 
pruning (394%) , 72 
1-SE rule (1 倍 标准 差 准 则 ) , 75 
interactive (交互 ) , 76 
set of sub-trees ( 子 树 集合 ) , 74 
stopping criteria (停止 准则 ) , 74 


summary (汇总 ), 72 
Relative frequencies (相对 频率 ) ， 参 见 Frequency 
tables 
Reliable performance estimates (相对 性 能 评估 ), 81 
ROC analysis (ROC 分 析 ), 252 


S 


Self-training ( 自我 训练 ), 223-229 
Semi-supervised learning 〈 半 监督 学 习 ) 186 
Sequences (序列 ), 14 

of factors (HF), 15 

of integers (整数 ), 14 

of reals (实数 ), 14 

random (随机 ), 16 

with repetitions (重复 ) , 15 
Sharpe ratio (夏普 比率 ), 132 
Shorth, 239 
Similarity ( 相似 性 ) , 184, 255 
Sliding window (滑动 窗口 ) ，122 
Standardization (标准 化 ), 62, 124, 182, 245 
Statistics of centrality (中 心 趋 势 统 计量 ), 55, 179, 

240, 257 
Stratified samples (分 层 抽样 )，194 
Strip plots (条 状 图 ) ,51 
Student ¢ distribution (学生: 分布), 16 
Summary statistics 《汇总 统计 量 ), 43 
Supervised learning (有 监督 的 学 习 ), 184, 185 
Support vector machines (支持 向 量 机 )，126- 129， 

187, 254 

T 


T indicator (TT 指标 ) , 108 
Technical indicators (技术 指标 ) , 112 
Time classes (Time 2) , 99 

POSIXt ( POSEXt 类 ) , 99 

Data (Date 2), 99 
Time series 《时间 序列 ), 97 
Trading simulator (交易 仿真 器 ) ，133 
Trading strategies ( 交易 策略 ) ，131 
Type coercion 〈 类 型 转换 ) , 8 

U 


Unknown values (缺失 值 ), 52-63 
imputation strategies (缺失 值 替 换 策略 ) , 53 
Unsupervised learning (无 监督 学 习 ) 184 


V 
Vectorization 〈 疝 量化 ) 10-11 


Vectors (向 有 量 ) , 7-9 
adding elements (加 性 元 素 ), 9 
arithmetic (算术 ), 10 
creating (创建 ) ,8 
empty vector ( 空 向 量 ), 9 
indexing (索引 ) ,8 
length (长 度 ) , 7 
naming elements (命名 元 素 ) 18 
recycling (循环 ), 10 
removing elements ( 移 除 元 素 ) ,9 
sub-setting 〈 子 元 素 ) 16 


W 


Web sites (网 站 ) 
CRAN mirrors (CRAN 镜像 ) , 4 
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MySQL, 2, 35 

R,3 

R mailing lists (R 邮件 列表 ) , 1 
this book (4-3), 2 


Weka, 218 
Wilcoxon tests ( Wilcoxon 检验 ) 89 
Working directory (工作 目录 ) 


changing (更 改 ), 35 
checking (查看 ) 35 


X 


xts objects (xts 对 象 ) , 98 


creating (创建 ), 98 
indexing (索引 ), 99 
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D 


Data pre-processing (数据 预 处 理 ) 

creating new variables (建立 新 变量 ) , 
108-112 
feature selection (变量 选择 ), 112-117, 
241-251 

standardization (标准 化 ), 62, 124 
unknown values (缺失 值 ), 52-63 

Data summarization (数据 汇总 ) , 43-52, 239, 240 
basic statistics ( 基本 统计 量 ) , 43, 167-174 
comparing distributions (比较 分 布 ), 179-183 
correlation (相关 ), 56 
inter-quartile range ( 四 分 位 距 ), 44, 47, 179, 241 
measures of centrality (中 心 趋势 度量 ), 179 
measures of spread (离散 型 度量 ), 179 

Data visualization (数据 可 视 化 ), 43-52 
bar plot (RÆK), 168 
box plot 《( 箱 图 ) , 47, 171 
box-percentile plot (分 位 数 箱 图 ) , 49 
candlestick graphs (K 线 图 ), 110 
conditioned box plot (条 件 箱 图 ), 49 
conditioned histogram (条 件 直方 图 ), 59 
conditioned strip plot 《条件 条 状 图 ), 50, 60 
histogram (HFA), 44, 239 
interacting with plots (图 形 交 互 ) , 48, 80 
level plot 〈 水 平 图 ) 248 
log scales (对 数 尺度 ) , 171 


Q-Q plot (Q-Q Æ), 45 
strip plot (条 状 图 ), 50 


Descriptive models (描述 性 模型 ) 


LOF, 201-204 

OR, , 205-208 

box plot mle ( 箱 图 准则 ) , 173, 196-201 

clustering of variables ( X ERX), 250 

hierarchical agglomerative clustering ( ZKR Æ), 
205 , 250 


E 


Evaluation criteria (评价 准则 ) 


NDTP, 193 

accuracy (正确 率 ), 119, 252 

AUC, 252 

Brier score (Brier 分 值 ) ，252 

confusion matrix (HERE), 119, 266 

cumulative recall charts (ROC 图 ), 192 

error rate ( 误 分 率 ), 119 

errors scater plot (误差 散 点 图 ), 79 

F-measure (下 度量 ), 120 

financial trading criteria (金融 交易 准则 )，132， 
138-141, 158-161 

lift charts (提升 图 ), 191 

mean absolute error (评价 绝对 偏差 ), 77 

mean squared error ( 均 方 误差 ) , 78 

misclassification costs ( 误 分 损失 ), 252 

normalized mean squared error (标准 化 均 方 误 
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2), 78 
precision (决策 精确 度 ), 119, 188, 252 
precision/recall curves (决策 精确 度 / 回 漳 精 确 度 
曲线 ) 188-191 
recall ( EIMH AE), 119, 188, 252 
Evaluation methodologies (评价 方法 ) 
cross-validation (交叉 验证 ), 81-91 
hold-out (保留 ), 194-195 
leave-one-out cross-validation ( 弃 一 交叉 验证 法 )， 
253-254, 258-266 
Monte Carlo (蒙特 卡 罗 ), 141-156 
significance of diffierences (显著 性 不 同 ), 89, 153 
stratified samples 《分 层 抽样 ) , 194 
M 


Modeling tasks ( 建 模 任务 ) 
class imbalance (类 失衡 ) 
SMOTE (SMOTE 方法 ) , 210 
classification (分 类 ) ,117 185 
class imbalance (类 失衡 ), 119, 185, 
209-211 
clustering ( 聚 类 ), 184 
outlier detection (异常 值 侦 测 ), 184 
regression ( 回归), 63-93, 117 


semi-supervised classification 《〈 半 监督 分 类 ) , 187 
semi-supervised clustering 〈 半 监督 聚 类 ) , 186 
time series forecasting (时 间 序 列 预 测 )， 
120-130 

growing window 《生长 窗口 ), 122 

regime shift (区 域 转换 ), 121 

sliding window (滑动 窗口 ) 122 

P 


Predictive models ( 预测 模型 ) 
AdaBoost ( AdaBoost 方法 ) , 217-223 
artificial neural networks (人 工 神 经 网 络 )， 
123-126 
k-nearest neighbors (大 近 邻 方 法 ) , 255-257 
multiple linear regression (多 元 线性 回归 ), 64-71 
multivariate adaptive regression splines (多 元 自 适应 
回归 样 条 )， 129-130 
Naive Bayes (简单 贝 叶 斯 ) , 211-217 
random forests ( 随机 森林 ) 88, 254-255 
regression trees (回归 树 ), 71-77 
self-training ( 自 训 练 ), 187, 223-229 
support vector machines (支持 向 量 机 )， 
126-129, 254 
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abline(), 47, 48, 79, 80 
abs (), 78, 80 
adaboost .M1 (), 218 
AdaBoostMl (), 218, 219 
addAvgPrice(), 111 
addT.ind(), 111 
aggregate(), 171 
Anova(), 245 

anova(), 67-69 
aperm(), 200 

apply(), 54, 64, 242 
array(), 21 
as.double(), 173 
as.formula(), 86 
as.integer(), 64 
as.xts(), 102 
attach(), 28, 176 
attr(), 200, 266 


bestScores (), 86, 88, 89 
boxplot(), 47, 171 
boxplot.stats(), 173, 180 
buildModel (), 114-116 
bwplot(), 49 


e(), 25 

candleChart (), 110, 111 
cat(), 33 

cbhind(), 20 

ceiling(), 178, 242 
centralImputation(), 56 
colnames(), 21 
compAnalysis(), 89, 91, 153 
complete.cases(), 53, 64 
cor(), 56, 57 
coredata(), 101 
CRchart(), 192 

cummax (), 190 


cutree(), 250 


daisy(), 201, 207 
data (), 30 
data.frame(), 26 
dataset (), 83 
dbConnect (), 107 
dbDisconnect (), 107 
dbDriver(), 107 
dabGetQuery(), 107 
dbUnloadDriver(), 107 
Delt (), 110 
density(), 45 
describe (), 44, 167 
detach (), 28, 176 
dim(), 19 
do.calli(), 92 


earth(), 129, 130 

edit (), 29 

equal.count(), 50, 51 

eval.stats(), 145, 156 

experimentalComparison (), 81, 83- 86, 
142, 262 

exprs (), 238 


factor(), 11, 171 
featureNames (), 247 
filterfun(), 245 
floor (), 242 

for(), 32, 64 


genefilter(), 245 

get .hist.quote(), 102 
getModelData(), 114, 163 
getSymbols (), 103, 104, 107, 114, 115 
getVariant(), 85, 92, 154 

getwd(), 35, 42 

gl(), 15 

grow(), 145, 156, 157 
growingWindow(), 143 


helust(), 205 
head(), 42 

help(), 5 
help.start(), 5 
hist(), 44, 45, 239 


histogram(), 59, 60 

HLC(), 109 

hldSettings (), 198 
ho.BPrule(), 200 

holdOut (), 194, 197-199, 213 


I(), 27 

identify(), 48, 80 
if(), 32 

ifelse(), 80 
importance(), 116, 247 
index (), 101 

install .packages(), 4 
intersect (), 152 
is.na(), 49, 50, 58, 64 


jitter(), 45-47 
join(}, 150 


KNN (), 257 

knn(), 256, 257 
knnimputation(), 62, 92 
ks.test(), 182 

ksvm(), 128 


lapply(), 190 

length (), 8, 25, 168 
levelplot (), 248 
library (), 45, 49 

lines (), 45 

lm(), 57, 64, 71, 82 
load(), 35, 179, 263 
loadSymbolLookup (), 104 
lofactor(), 201, 203 
loocv (), 253, 265 


make .names(), 246 

manyNAs (), 55 
margin.table(), 13 

mars (), 129 

matrix(), 19 

MC .nnetR(), 163 

mean(), 47, 48, 55, 56, 78, 80 
median (), 56 

modelData(), 115 


na.omit(), 50, 51, 53, 118 
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naiveBayes(), 212, 215 
names (), 18, 64 
nceol(), 29 

newTA(), 111 

Next (), 109 
nlevels(), 167, 177 
nnet (), 124, 125 
nrow(), 29, 53 
nsFilter(), 243, 244 


odbcClose(), 106 
odbcConnect (), 106 

order(), 171 
outliers.ranking(), 206, 207 


par(), 79 

performance (), 189 
plot(), 34, 48, 72, 79, 80, 138, 189 
policy.1(), 145 
policy.2(), 145 
PReurve (), 190 
predict (), 78, 125, 163 
prediction(), 189 
prettyTree(), 72 
princp(), 74 
prop.table(), 13 
prune(), 75 


a, 4 
aq-plot (), 45 


randomForest (), 88 
rankSystems (), 148, 150, 263 
rbind(), 20 
read.table(), 42, 64, 71 
read.zoo(), 102 
regr.eval(), 79 

rep(), 15 

resp(), 82 

return(), 31, 58 
Return.calculate(), 159 
rev(), 190 

rnorm(), 16 

rowIQRs(), 242 
rowMedians(), 241 
rownames (), 21 

rowQ (), 242 


rpart(), 71, 74-76 
xpartXse(), 75, 82 
rug(), 45-47 


sapply(), 58, 171 
save(), 35, 179 
save.image(), 35 
saveSymbolLookup (), 104 
scale(), 93, 124 
SelfTrain(), 223-225 
seq(), 14, 99 
seq.POSIXt (), 99 
set.seed(), 124 
set SymbolLookup (), 103, 104, 115 
setwd(), 35 
shorth(), 240 
sigs.PR(), 125, 145 
single(), 145, 156 
slide(), 145, 156 
slidingWindow(), 143 
SMOTE (), 210 
snip.rpart(), 76 
SoftMax(), 203 
sort (), 64 
source (), 34 
specifyModel(), 114, 115 
split(), 202, 203 
sqlFecth(), 106 
sqlFecthMore(), 106 
sqlFetch(), 106 
statScores(), 152 
step(), 69, 70 
stripplot (), 50, 51, 60 
strsplit(), 92 
structure (), 198, 265 
subset (), 28, 150 
summary (), 43, 65, 66, 72, 148, 167, 
168, 253 
svm(), 127, 128, 254 
symnum(), 57 
system.time(), 242 


T.ind(), 110 

table (), 12, 238 
table.CalendarReturns (), 160 
table.DownsideRisk(), 161 


tapply(), 197 

text (), 72 

time (), 101 

trading.signals(), 117, 118, 125 
trading.simulator(), 133, 145 
tradingEvaluation(), 138, 145 


unlist(), 26 
unscale(), 124, 125 
update (), 67 


varclus(), 250 
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Variant()，83 
Variants()，83，262 
varImpPlot (), 116 


Weka_control(), 219 
which (), 64, 168 
WOW (), 219 


xts(), 98 


yearlyReturn(), 159 


